摘要
本发明属于人工智能、多模态深度学习技术领域,具体涉及了一种少样本场景下基于音乐特征引导的视频问答方法。本发明通过统计音源信息并提取音乐特性,将音乐的先验知识引入多模态融合过程,实现了对音频与视觉信息的时序一致建模,有效增强了模型对多模态数据的理解能力。并结合大语言模型的知识优势,通过思维链提示补充少样本场景中的语义信息不足,显著提升了模型在数据稀缺条件下的泛化能力和推理能力。通过基于思维链提示的时空感知模型,本发明能够精准选择与当前问题相关的时间段落和空间区域特征,并融合三模态信息生成问答答案,实现了在少样本场景下的高效推理。同时,模型对多模态数据中的噪声具有较强的鲁棒性。
技术关键词
视频问答方法
样本
视觉特征
音乐特征
答案
场景
时间序列特征
注意力
文本编码器
多模态深度学习
大语言模型
音频特征信息
音频特征提取
音源特征
图像编码器
多层感知机