摘要
本发明公开了面向非结构化PDF文档的多模态语义理解方法及系统,涉及数据处理相关领域,该方法包括:调取关系型知识表示预案对目标PDF文档进行分析,得到目标关系框架,并对目标关系框架进行跨模态对齐处理,得到目标对齐框架;对目标对齐框架进行多模态交互分析,得到目标融合信息;基于目标融合信息对目标PDF文档进行重构处理,得到目标重构文档;将目标重构文档的语义信息作为目标PDF文档的多模态语义理解。解决了现有面向非结构化PDF文档的多模态语义理解存在的模态语义关联缺失与交互不足,导致语义理解精度不足的技术问题,达到了通过整合文档中的多模态信息,提高语义理解精度的技术效果。
技术关键词
语义理解方法
框架
多模态交互
跨模态
实体
文本
关系建模
视觉
图像超分辨率重构
字符
语义理解系统
依赖特征
金字塔池化
图文混排
多尺度
策略
系统为您推荐了相关专利信息
大语言模型
修复方法
识别模块
文本处理技术
实体
大语言模型
文本
数据处理算法
算法数据处理
问答方法
协作缓存方法
动态时间规整算法
场景
缓存命中率
轨迹