摘要
本申请提供一种多模态文档理解模型、训练方法、推理方法及设备,利用权重冻结的第一视觉编码器提取全局视觉特征,增强模型对自然场景图像的理解能力,第二视觉编码器基于高分辨率文档图像和感兴趣区域信息提取细粒度特征,提高复杂文档的解析精度。信息交互模块结合用户输入的感兴趣区域位置,提升对特定区域的智能理解能力。特征融合模块在通道维度拼接多模态特征,使不同来源的视觉信息高效整合。线性层转换特征维度,使视觉特征适配大语言模型的输入需求,大语言模型结合视觉与文本信息,生成符合语义逻辑的文本理解结果。本模型通过双路视觉编码器结合用户对图文结构的文档图像的感兴趣区域选择,提升了文档信息细粒度解析、提取的能力。
技术关键词
全局视觉特征
融合视觉特征
推理方法
自然场景图像
特征金字塔网络
大语言模型
感兴趣
文本理解
深度卷积神经网络结构
计算机程序指令
原始文档图像
图文
细粒度特征
多模态特征
交织结构
多尺度特征