摘要
本发明公开了一种基于多模态异构图的视听视频问答方法和系统,涉及多模态交互、视频内容分析、智能问答等技术领域,提取音视频中的视觉特征和音频特征;根据视觉特征和音频特征,分别构建运动引导和音频引导的异构图;将运动引导和音频引导的异构图进行聚合,得到视听交互后的视觉特征和音频特征;提取查询问题中的问题特征,根据问题特征挑选关键视觉区域,获取稀疏视觉特征;根据问题特征和稀疏视觉特征,构建问题引导的异构图,得到局部视觉特征和全局视觉特征;将问题特征分别与视听交互后的音频特征、局部视觉特征和全局视觉特征进行融合,分别得到融合后的问题特征;根据多模态融合后的问题特征,得到问题答案的预测结果,提升问答准确率。
技术关键词
异构
局部视觉特征
视频问答方法
音频特征
全局视觉特征
视听
节点
运动
矩阵
答案
多模态交互
对音视频
模块
问答系统