摘要
本发明涉及文档处理技术领域,提供一种文档解析方法、电子设备和存储介质。该方法包括:首先对PDF文档中的每页文档进行布局分析,获得每页文档的各个区块及其类别;然后对于类别为文本的区块,对该区块进行文本提取获得文本内容,并对文本内容进行段落连接获得解析结果;接着对于类别为图像或者表格的区块,对该区块进行解析获得解析结果;最后根据每页文档中各个区块的解析结果,获得每页文档的解析结果列表。本发明通过对PDF文档进行布局分析来确定各个区块的类别,并根据区块的类别以采用对应的解析方式来提取区块内容。从而实现了对PDF文档中不同的区块进行针对性解析,提高了文档解析的准确率。
技术关键词
文档解析方法
文本行
表格
光学字符识别
像素点
图像
布局
列表
电子设备
图片
聚类
处理器
关系
语义
存储器