基于多模态语言模型的PDF文档结构化提取系统

AITNT
正文
推荐专利
基于多模态语言模型的PDF文档结构化提取系统
申请号:CN202510866013
申请日期:2025-06-26
公开号:CN120877316A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了基于多模态语言模型的PDF文档结构化提取系统,属于文档处理与光学字符识别技术领域,本发明要解决的技术问题为如何改进现有的OCR技术提升对复杂文档结构的解析能力,提高对手写体及其他非标准字体的识别精度,降低大模型文档的处理成本,技术方案为:该系统采用分层解耦架构,包括输入层、预处理层、推理层、输出层以及监控与容错模块;其中,输出层用于多源数据接入与路径管理,实现本地文件系统或S3云存储;预处理层用于无效文档过滤及视觉特征提取;推理层用于多模态模型交互与内容处理;输出层用于输出内容聚合结果;监控与容错模块用于实现实时状态监控、资源消耗分析及异常处理。
技术关键词
多模态 视觉特征提取 标记机制 分析文档内容 光学字符识别技术 文本 非标准字体 页面内容 文字识别技术 文件系统 图表 表格 队列机制 令牌 模块 布局 列表 图像 数据存储
系统为您推荐了相关专利信息
1
天空地一体、通导感融合的电力系统典型灾害关键诱发因素辨识方法及相关装置
多模态数据融合 电力系统 模糊集理论 辨识方法 典型
2
一种用于大模型训练的文档格式转换方法及装置
文本 文档格式转换方法 多模态 指标 表格
3
一种车辆控制方法及系统、计算机设备
语义标签 车辆控制方法 意图 发送端 接收端
4
面向工艺标准化的生产知识自动化抽取与管理系统
基元 多模态特征 工艺操作过程 序列 隐半马尔可夫模型
5
一种实时检测井壁的方法、系统、电子设备及存储介质
多模态 实时数据 作业参数 输入输出单元 高精度时间戳
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号