摘要
本发明提供一种基于多模态注意力机制的视频问答方法和系统,方法包括:获取视频数据和文本数据;文本数据至少包括:问题文本和视频数据对应的描述文本;分别从视频数据和文本数据中提取视觉特征和文本特征,并对视觉特征进行投影,与文本特征对齐;基于注意力机制将投影后的视觉特征与文本特征进行融合,生成多模态融合特征;对多模态融合特征进行编码,得到编码特征;将编码特征输入预训练的自然语言模型,自然语言模型输出问题的最终答案;本发明能够有效整合视频和文本模态的信息,显著增强了模态之间的交互能力,显著提升模型对多模态语义关系的理解能力,并能够自动聚焦于视觉和文本模态中最重要的信息,以实现更准确的问答任务。
技术关键词
视频问答方法
多模态注意力
自然语言模型
文本
融合特征
编码特征
注意力机制
视觉特征提取
特征提取器
多模态数据采集
适配器结构
答案
编码器
系统为您推荐了相关专利信息
实体链接方法
命名实体识别模型
文本
键值
实体链接系统
图像特征信息
标识
问答模型
计算机执行指令
图文
物体位姿估计方法
注意力机制
融合特征
图像
多层感知机