摘要
本发明涉及计算机视觉领域,具体为一种面向长视频理解的采样方法及系统,步骤包括:获取长视频及视频字幕作为输入,利用视频大模型将长视频分成多个语义一致的视频片段;对于各个视频片段通过视觉编码器映射得到输入序列,将输入序列输入视频大语言模型中,生成视频片段的文字总结;对于视频片段进行令牌采样,计算视频片段各帧之间的相对权重,并根据权重向每帧分配不同的令牌数量;将令牌采样后的视频帧的与文字总结输入视频大语言模型,基于视频帧令牌与文字总结的匹配度,得到视频片段的关键帧。与现有技术相比,本发明利用令牌采样方法提高帧处理效率,解决现有长视频理解方法中,多模态大模型显存开销和视频信息完整性难以平衡的问题。
技术关键词
令牌
大语言模型
视频帧
采样方法
生成视频片段
采样系统
序列
关键帧
视觉特征
信息编码器
注意力
字幕
视频理解方法
语义
分段
采样模块
文本
计算机视觉
系统为您推荐了相关专利信息
智能审核方法
人事档案
大语言模型
可信度向量
跨模态