基于多模态语言模型的PDF文档结构化提取系统

正文

推荐专利

申请号：CN202510866013

申请日期：2025-06-26

公开号：CN120877316A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了基于多模态语言模型的PDF文档结构化提取系统，属于文档处理与光学字符识别技术领域，本发明要解决的技术问题为如何改进现有的OCR技术提升对复杂文档结构的解析能力，提高对手写体及其他非标准字体的识别精度，降低大模型文档的处理成本，技术方案为：该系统采用分层解耦架构，包括输入层、预处理层、推理层、输出层以及监控与容错模块；其中，输出层用于多源数据接入与路径管理，实现本地文件系统或S3云存储；预处理层用于无效文档过滤及视觉特征提取；推理层用于多模态模型交互与内容处理；输出层用于输出内容聚合结果；监控与容错模块用于实现实时状态监控、资源消耗分析及异常处理。

技术关键词

多模态视觉特征提取标记机制分析文档内容光学字符识别技术文本非标准字体页面内容文字识别技术文件系统图表表格队列机制令牌模块布局列表图像数据存储

系统为您推荐了相关专利信息

天空地一体、通导感融合的电力系统典型灾害关键诱发因素辨识方法及相关装置

多模态数据融合电力系统模糊集理论辨识方法典型

一种用于大模型训练的文档格式转换方法及装置

文本文档格式转换方法多模态指标表格

一种车辆控制方法及系统、计算机设备

语义标签车辆控制方法意图发送端接收端

面向工艺标准化的生产知识自动化抽取与管理系统

基元多模态特征工艺操作过程序列隐半马尔可夫模型

一种实时检测井壁的方法、系统、电子设备及存储介质

多模态实时数据作业参数输入输出单元高精度时间戳

基于多模态语言模型的PDF文档结构化提取系统

站点导航

APP 下载