一种基于多模态异构图的视听视频问答方法和系统

正文

推荐专利

申请号：CN202411823994

申请日期：2024-12-12

公开号：CN119311842B

公开日期：2025-03-25

类型：发明专利

摘要

本发明公开了一种基于多模态异构图的视听视频问答方法和系统，涉及多模态交互、视频内容分析、智能问答等技术领域，提取音视频中的视觉特征和音频特征；根据视觉特征和音频特征，分别构建运动引导和音频引导的异构图；将运动引导和音频引导的异构图进行聚合，得到视听交互后的视觉特征和音频特征；提取查询问题中的问题特征，根据问题特征挑选关键视觉区域，获取稀疏视觉特征；根据问题特征和稀疏视觉特征，构建问题引导的异构图，得到局部视觉特征和全局视觉特征；将问题特征分别与视听交互后的音频特征、局部视觉特征和全局视觉特征进行融合，分别得到融合后的问题特征；根据多模态融合后的问题特征，得到问题答案的预测结果，提升问答准确率。

技术关键词

异构局部视觉特征视频问答方法音频特征全局视觉特征视听节点运动矩阵答案多模态交互对音视频模块问答系统

一种基于多模态异构图的视听视频问答方法和系统

站点导航

APP 下载