一种基于多帧到少帧自蒸馏与关键帧筛选的视频问答方法

正文

推荐专利

申请号：CN202510647932

申请日期：2025-05-20

公开号：CN120526351A

公开日期：2025-08-22

类型：发明专利

摘要

本发明公开一种基于多帧到少帧自蒸馏与关键帧筛选的视频问答方法，属于跨模态视频内容理解的视频问答技术领域；方法包括：使用视频编码器从输入视频中提取全部帧特征；构建包括教师查询器、学生查询器和视频文本匹配头的多帧到少帧自蒸馏框架，并将全部帧特征输入教师查询器，输出教师视频表示；通过分段关键帧筛选策略在全视频范围内筛选出关键帧特征，并输入学生查询器，输出学生视频表示；基于教师和学生视频表示，引入多级自蒸馏损失，训练优化多帧到少帧自蒸馏框架；利用训练优化后的学生查询器，生成学生视频表示，并与语言上下文一同输入大语言模型，生成答案。

技术关键词

视频问答方法查询器关键帧蒸馏教师学生视频编码器生成答案大语言模型文本视频帧样本问答技术通信接口框架计算机存储介质分段特征提取模块问答系统

系统为您推荐了相关专利信息

一种面向知识点语义内容的在线学习平台教学资源分类方法

知识点在线学习平台语义特征文本图像嵌入

基于改进YOLOv8无后处理的电力自适应巡检方法及系统

巡检方法卷积模块检测识别模块蒸馏方法电力

图像增强及模型训练方法、装置、设备、介质和产品

图像增强模型特征提取网络采样模块蒸馏学生

基于自我迭代的企业大模型训练系统及方法

问答语料库模型训练系统策略教师模型训练方法

基于视联网的自动化视频质量保障方法与装置

保障方法关键帧深度神经网络模型管理终端深度学习算法

一种基于多帧到少帧自蒸馏与关键帧筛选的视频问答方法

站点导航

APP 下载