一种基于多模态异构图的视听视频问答方法和系统

AITNT
正文
推荐专利
一种基于多模态异构图的视听视频问答方法和系统
申请号:CN202411823994
申请日期:2024-12-12
公开号:CN119311842B
公开日期:2025-03-25
类型:发明专利
摘要
本发明公开了一种基于多模态异构图的视听视频问答方法和系统,涉及多模态交互、视频内容分析、智能问答等技术领域,提取音视频中的视觉特征和音频特征;根据视觉特征和音频特征,分别构建运动引导和音频引导的异构图;将运动引导和音频引导的异构图进行聚合,得到视听交互后的视觉特征和音频特征;提取查询问题中的问题特征,根据问题特征挑选关键视觉区域,获取稀疏视觉特征;根据问题特征和稀疏视觉特征,构建问题引导的异构图,得到局部视觉特征和全局视觉特征;将问题特征分别与视听交互后的音频特征、局部视觉特征和全局视觉特征进行融合,分别得到融合后的问题特征;根据多模态融合后的问题特征,得到问题答案的预测结果,提升问答准确率。
技术关键词
异构 局部视觉特征 视频问答方法 音频特征 全局视觉特征 视听 节点 运动 矩阵 答案 多模态交互 对音视频 模块 问答系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号