摘要
本发明涉及文档解析技术领域,公开了一种大模型辅助的PDF文本提取与重排优化方法及系统,本发明在对PDF文档的内容进行解析和提取,读取并遍历每一页PDF,然后对文件每一页执行资源前置解析操作以及块对象类型判断,首先通过资源前置解析获取文本的CMAP,然后根据块对象的类型匹配相应的文本提取方式,最后将提取的文本进行基础分段,然后使用LLM模型进行分段重排,输出每一页提取的内容。本发明直接读取PDF文件,并对PDF文件中的块直接操作,通过块对象的类型匹配相应的文本提取方式,相比直接使用深度学习模型去解析PDF,显著提升了文本读取、识别速度。
技术关键词
OCR识别技术
对象
图片
文档解析技术
分段
文本识别
资源
节点
字典
深度学习模型
字符
表达式
编码
模块
基础
格式
图像
速度
系统为您推荐了相关专利信息
文件存储方法
文件存储系统
格式
无损压缩算法
存储管理模块
隧道围岩爆破
方案设计方法
高密度电阻率
三维点云模型
隧道爆破开挖
肺部组织模型
仿真方法
非易失性存储介质
医学图像数据
参数
数据管理方法
发动机试车数据
三次样条插值法
多参数
定时任务调度