一种基于多模态特征融合的视觉问答方法及其模型

正文

推荐专利

申请号：CN202411900860

申请日期：2024-12-23

公开号：CN119832535A

公开日期：2025-04-15

类型：发明专利

摘要

本发明提出一种多模态特征融合的视觉问答方法，通过生成不同分辨率的图像，多尺度信息挖掘模块能够有效地提取不同尺度下的图像特征，从而提升图像理解的精度并通过多模态特征引导融合策略，将图像和文本特征高效结合，利用自注意力和交叉机制在特征层次深度交互，生成具有语义与视觉信息融合的特征表示，利用多模态特征融合后之后的数据特征，通过全连接神经网络和文本输入到大模型中获得视觉问答的结果并结合数据集中的答案训练预测结果。本发明相较于现有的方法具有稳定性好、准确率高等优点。

技术关键词

多模态特征融合视觉问答方法文本特征向量图像特征向量注意力多尺度信息融合策略高分辨率图片网络模型结构 BERT模型前馈神经网络答案双线性插值中间层

系统为您推荐了相关专利信息

一种基于地基探测设备多源大数据智能分析融合处理方法

多源大数据探测设备流形学习算法多头注意力机制数据非线性关系

一种微表情实时情绪研判方法及系统

研判方法表情特征提取研判系统多模态面部微表情

网络安全防护方法、装置、计算机设备及存储介质

实时数据网络安全防护方法节点网络流量数据网络安全攻击

基于视觉语言实例融合的细粒度遥感目标检测方法及装置

遥感图像特征嵌入特征检测网络模型语言编码器检测头

一种基于弱纹理环境下的视觉SLAM改进方法

特征点视觉SLAM方法动态物体解码器双三次插值

一种基于多模态特征融合的视觉问答方法及其模型

站点导航

APP 下载