一种大模型辅助的PDF文本提取与重排优化方法及系统

AITNT
正文
推荐专利
一种大模型辅助的PDF文本提取与重排优化方法及系统
申请号:CN202411579637
申请日期:2024-11-07
公开号:CN119538906A
公开日期:2025-02-28
类型:发明专利
摘要
本发明涉及文档解析技术领域,公开了一种大模型辅助的PDF文本提取与重排优化方法及系统,本发明在对PDF文档的内容进行解析和提取,读取并遍历每一页PDF,然后对文件每一页执行资源前置解析操作以及块对象类型判断,首先通过资源前置解析获取文本的CMAP,然后根据块对象的类型匹配相应的文本提取方式,最后将提取的文本进行基础分段,然后使用LLM模型进行分段重排,输出每一页提取的内容。本发明直接读取PDF文件,并对PDF文件中的块直接操作,通过块对象的类型匹配相应的文本提取方式,相比直接使用深度学习模型去解析PDF,显著提升了文本读取、识别速度。
技术关键词
OCR识别技术 对象 图片 文档解析技术 分段 文本识别 资源 节点 字典 深度学习模型 字符 表达式 编码 模块 基础 格式 图像 速度
系统为您推荐了相关专利信息
1
一种基于多维化格式的文件存储方法、系统、设备及介质
文件存储方法 文件存储系统 格式 无损压缩算法 存储管理模块
2
一种隧道围岩爆破开挖方案设计方法及其系统
隧道围岩爆破 方案设计方法 高密度电阻率 三维点云模型 隧道爆破开挖
3
手机广告投放方法及系统
样式 手机广告投放方法 数据 对象 神经网络模型
4
雾化颗粒射流的仿真方法、装置和非易失性存储介质
肺部组织模型 仿真方法 非易失性存储介质 医学图像数据 参数
5
一种发动机试车数据管理方法、系统、设备与介质
数据管理方法 发动机试车数据 三次样条插值法 多参数 定时任务调度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号