摘要
本发明公开了一种面向机构调研PDF的多模态解析方法,涉及电数字数据处理技术领域;其包括如下步骤,步骤1:基于版面分割模型解析PDF文件获得结构化区域和非结构化区域;步骤2:结构化区域的表格经跨页表格重组算法处理获得完整的表格数据,经规则模板匹配算法提取获得关键字段并形成结构化的数据;步骤3:版式自注意增强模型包括依次连接的输入层、Transformer编码层和预训练任务模块,在预训练阶段采用跨模态注意力机制和多模态掩码预训练任务,在微调阶段采用分层微调和对抗训练;步骤4:非结构化区域经版式自注意增强模型处理获得模块化的信息;其通过版式自注意增强模型等,实现解析效率高、完整性好、准确性好。
技术关键词
模态解析方法
跨模态
表格
模板匹配算法
注意力机制
掩码策略
阶段
语义
多模态
评分机制
关键字
噪声数据
分层
数据管理
参数
标签