摘要
本发明提出一种多模态特征融合的视觉问答方法,通过生成不同分辨率的图像,多尺度信息挖掘模块能够有效地提取不同尺度下的图像特征,从而提升图像理解的精度并通过多模态特征引导融合策略,将图像和文本特征高效结合,利用自注意力和交叉机制在特征层次深度交互,生成具有语义与视觉信息融合的特征表示,利用多模态特征融合后之后的数据特征,通过全连接神经网络和文本输入到大模型中获得视觉问答的结果并结合数据集中的答案训练预测结果。本发明相较于现有的方法具有稳定性好、准确率高等优点。
技术关键词
多模态特征融合
视觉问答方法
文本特征向量
图像特征向量
注意力
多尺度信息
融合策略
高分辨率图片
网络模型结构
BERT模型
前馈神经网络
答案
双线性插值
中间层
系统为您推荐了相关专利信息
多源大数据
探测设备
流形学习算法
多头注意力机制
数据非线性关系
研判方法
表情特征提取
研判系统
多模态
面部微表情
实时数据
网络安全防护方法
节点
网络流量数据
网络安全攻击
遥感图像特征
嵌入特征
检测网络模型
语言编码器
检测头
特征点
视觉SLAM方法
动态物体
解码器
双三次插值