摘要
本申请提供一种基于多模态信息融合的钻井工程文档识别方法及装置,涉及工程文档处理领域,包括:对预处理后的原始钻井文档图像进行多模态特征提取,得到文本模态特征、图像模态特征、结构模态特征及语义模态特征;对所述文本模态特征、图像模态特征、结构模态特征及语义模态特征进行多模态信息融合,得到高层融合特征及初步纠错标识;根据所述高层融合特征及初步纠错标识进行多任务识别纠错,得到最终识别结果;对所述最终识别结果进行语义关联处理,得到结构化输出结果。本申请能够通过融合文本、图像及领域知识等多模态信息,增强对钻井文档中复杂图形的语义理解,提高专业符号、图表及标注信息的识别准确率。
技术关键词
多模态信息融合
模态特征
文档识别方法
钻井工程
融合特征
纠错
文本
注意力模型
语义
多任务
表格
符号
图像
视觉标签识别
文档识别装置
标识
联合损失函数
特征提取单元
处理器
系统为您推荐了相关专利信息
内窥镜手术
时空融合特征
动作识别方法
组元
视觉特征
识别方法
协同注意力
特征金字塔
数据
金字塔特征