摘要
本发明公开一种基于多帧到少帧自蒸馏与关键帧筛选的视频问答方法,属于跨模态视频内容理解的视频问答技术领域;方法包括:使用视频编码器从输入视频中提取全部帧特征;构建包括教师查询器、学生查询器和视频文本匹配头的多帧到少帧自蒸馏框架,并将全部帧特征输入教师查询器,输出教师视频表示;通过分段关键帧筛选策略在全视频范围内筛选出关键帧特征,并输入学生查询器,输出学生视频表示;基于教师和学生视频表示,引入多级自蒸馏损失,训练优化多帧到少帧自蒸馏框架;利用训练优化后的学生查询器,生成学生视频表示,并与语言上下文一同输入大语言模型,生成答案。
技术关键词
视频问答方法
查询器
关键帧
蒸馏
教师
学生
视频编码器
生成答案
大语言模型
文本
视频帧
样本
问答技术
通信接口
框架
计算机存储介质
分段
特征提取模块
问答系统
系统为您推荐了相关专利信息
问答语料库
模型训练系统
策略
教师
模型训练方法
保障方法
关键帧
深度神经网络模型
管理终端
深度学习算法