摘要
本发明涉及人工智能技术领域,尤其是指一种两级交叉注意力的单级门控多模态融合方法,包括:将输入文本经过嵌入层和文本编码器,得到文本向量;将输入图像经过图像编码器,得到图像向量;将文本向量和图像向量输入模态特征融合模块,所述模态特征融合模块采用两级交叉注意力的单级门控模态融合机制,输出融合向量;将融合向量经过解码器,得到预测文本。本发明提升了模态间交互的效果,降低了模型产生的幻觉,并且有效降低了模型的计算参数,具有良好的泛用性和实用性。
技术关键词
多模态融合方法
注意力
文本编码器
图像编码器
多模态特征融合
解码器
答案
人工智能技术
阶段
模块
数据
信号
机制
线性
系统为您推荐了相关专利信息
电力需求预测系统
多尺度
状态空间模型
电力需求量
时序
广视角
轨迹置信度
记忆
特征提取模型
图片特征信息
颗粒级配检测方法
计算机视觉
实例分割模型
颗粒级配检测系统
图像像素