摘要
本公开提供了多模态模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为:利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到融合特征数据,其中,第一文档图像和第二文档图像是基于带有目标掩膜区域的目标文档图像所得,第一文档图像的分辨率与第二文档图像的分辨率不同;利用预设多模态模型的模型推理网络,对融合特征数据进行模型推理,以预测得到目标掩膜区域所掩盖的文本内容;基于预测得到的目标掩膜区域所掩盖的文本内容,对预设多模态模型进行训练,以得到目标多模态模型。
技术关键词
掩膜
图像
多模态
融合特征
特征提取单元
推理网络
感知特征
数据
分辨率
模型训练方法
文本
对齐模块
关系
卷积模块
模型训练装置
处理器
人工智能技术
计算机程序产品
系统为您推荐了相关专利信息
多模态数据融合
注意力机制
检索方法
文本
更新知识图谱
多模态用户交互
直播交互方法
多模态交互
生成用户
图谱
智能机器人
模块化关节
多模态
智能控制模块
末端执行器