文档解析方法、电子设备和存储介质

AITNT
正文
推荐专利
文档解析方法、电子设备和存储介质
申请号:CN202510285207
申请日期:2025-03-11
公开号:CN120124621A
公开日期:2025-06-10
类型:发明专利
摘要
本发明涉及文档处理技术领域,提供一种文档解析方法、电子设备和存储介质。该方法包括:首先对PDF文档中的每页文档进行布局分析,获得每页文档的各个区块及其类别;然后对于类别为文本的区块,对该区块进行文本提取获得文本内容,并对文本内容进行段落连接获得解析结果;接着对于类别为图像或者表格的区块,对该区块进行解析获得解析结果;最后根据每页文档中各个区块的解析结果,获得每页文档的解析结果列表。本发明通过对PDF文档进行布局分析来确定各个区块的类别,并根据区块的类别以采用对应的解析方式来提取区块内容。从而实现了对PDF文档中不同的区块进行针对性解析,提高了文档解析的准确率。
技术关键词
文档解析方法 文本行 表格 光学字符识别 像素点 图像 布局 列表 电子设备 图片 聚类 处理器 关系 语义 存储器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号