一种基于多模态特征融合的视觉问答方法及其模型

AITNT
正文
推荐专利
一种基于多模态特征融合的视觉问答方法及其模型
申请号:CN202411900860
申请日期:2024-12-23
公开号:CN119832535A
公开日期:2025-04-15
类型:发明专利
摘要
本发明提出一种多模态特征融合的视觉问答方法,通过生成不同分辨率的图像,多尺度信息挖掘模块能够有效地提取不同尺度下的图像特征,从而提升图像理解的精度并通过多模态特征引导融合策略,将图像和文本特征高效结合,利用自注意力和交叉机制在特征层次深度交互,生成具有语义与视觉信息融合的特征表示,利用多模态特征融合后之后的数据特征,通过全连接神经网络和文本输入到大模型中获得视觉问答的结果并结合数据集中的答案训练预测结果。本发明相较于现有的方法具有稳定性好、准确率高等优点。
技术关键词
多模态特征融合 视觉问答方法 文本特征向量 图像特征向量 注意力 多尺度信息 融合策略 高分辨率图片 网络模型结构 BERT模型 前馈神经网络 答案 双线性插值 中间层
系统为您推荐了相关专利信息
1
一种基于地基探测设备多源大数据智能分析融合处理方法
多源大数据 探测设备 流形学习算法 多头注意力机制 数据非线性关系
2
一种微表情实时情绪研判方法及系统
研判方法 表情特征提取 研判系统 多模态 面部微表情
3
网络安全防护方法、装置、计算机设备及存储介质
实时数据 网络安全防护方法 节点 网络流量数据 网络安全攻击
4
基于视觉语言实例融合的细粒度遥感目标检测方法及装置
遥感图像特征 嵌入特征 检测网络模型 语言编码器 检测头
5
一种基于弱纹理环境下的视觉SLAM改进方法
特征点 视觉SLAM方法 动态物体 解码器 双三次插值
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号