摘要
本发明涉及文档处理与数据提取领域,具体公开了一种基于大语言模型的PDF文本提取方法及系统,本发明对目标PDF文档各页内容定位标记得到第一待识别区域以及第二待识别区域,剔除待识别区域的噪声干扰特征;制定多层次文本逻辑重构策略完成对目标PDF文档逻辑顺序的重构,初步输出一级PDF文档,并进行一次图文关联程度分析输出第一关联强度;通过大语言模型对一级PDF文档的内容,进行语义结构上的智能异常识别并修正得到二级PDF文档,输出第二关联强度;基于第一关联强度以及第二关联强度判断二级PDF文档是否合格;本发明有助于恢复文档的逻辑顺序与语义完整性,提升文本纯净度与结构完整性。
技术关键词
文本提取方法
大语言模型
重构策略
干扰特征
识别策略
空间定位信息
图文
语义结构
逻辑
定位标记
多层次
智能识别模块
强度
生成文档
位置识别
页面
元素
剔除噪声