面向非结构化PDF文档的多模态语义理解方法及系统

正文

推荐专利

申请号：CN202511430775

申请日期：2025-10-09

公开号：CN120975098A

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了面向非结构化PDF文档的多模态语义理解方法及系统，涉及数据处理相关领域，该方法包括：调取关系型知识表示预案对目标PDF文档进行分析，得到目标关系框架，并对目标关系框架进行跨模态对齐处理，得到目标对齐框架；对目标对齐框架进行多模态交互分析，得到目标融合信息；基于目标融合信息对目标PDF文档进行重构处理，得到目标重构文档；将目标重构文档的语义信息作为目标PDF文档的多模态语义理解。解决了现有面向非结构化PDF文档的多模态语义理解存在的模态语义关联缺失与交互不足，导致语义理解精度不足的技术问题，达到了通过整合文档中的多模态信息，提高语义理解精度的技术效果。

技术关键词

语义理解方法框架多模态交互跨模态实体文本关系建模视觉图像超分辨率重构字符语义理解系统依赖特征金字塔池化图文混排多尺度策略