一种大模型辅助的PDF文本提取与重排优化方法及系统

正文

推荐专利

申请号：CN202411579637

申请日期：2024-11-07

公开号：CN119538906A

公开日期：2025-02-28

类型：发明专利

摘要

本发明涉及文档解析技术领域，公开了一种大模型辅助的PDF文本提取与重排优化方法及系统，本发明在对PDF文档的内容进行解析和提取，读取并遍历每一页PDF，然后对文件每一页执行资源前置解析操作以及块对象类型判断，首先通过资源前置解析获取文本的CMAP，然后根据块对象的类型匹配相应的文本提取方式，最后将提取的文本进行基础分段，然后使用LLM模型进行分段重排，输出每一页提取的内容。本发明直接读取PDF文件，并对PDF文件中的块直接操作，通过块对象的类型匹配相应的文本提取方式，相比直接使用深度学习模型去解析PDF，显著提升了文本读取、识别速度。

技术关键词

OCR识别技术对象图片文档解析技术分段文本识别资源节点字典深度学习模型字符表达式编码模块基础格式图像速度

系统为您推荐了相关专利信息

一种基于多维化格式的文件存储方法、系统、设备及介质

文件存储方法文件存储系统格式无损压缩算法存储管理模块

一种隧道围岩爆破开挖方案设计方法及其系统

隧道围岩爆破方案设计方法高密度电阻率三维点云模型隧道爆破开挖

手机广告投放方法及系统

样式手机广告投放方法数据对象神经网络模型

雾化颗粒射流的仿真方法、装置和非易失性存储介质

肺部组织模型仿真方法非易失性存储介质医学图像数据参数

一种发动机试车数据管理方法、系统、设备与介质

数据管理方法发动机试车数据三次样条插值法多参数定时任务调度

一种大模型辅助的PDF文本提取与重排优化方法及系统

站点导航

APP 下载