一种面向长视频理解的采样方法及系统

正文

推荐专利

一种面向长视频理解的采样方法及系统

申请号：CN202510873208

申请日期：2025-06-27

公开号：CN120388323B

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及计算机视觉领域，具体为一种面向长视频理解的采样方法及系统，步骤包括：获取长视频及视频字幕作为输入，利用视频大模型将长视频分成多个语义一致的视频片段；对于各个视频片段通过视觉编码器映射得到输入序列，将输入序列输入视频大语言模型中，生成视频片段的文字总结；对于视频片段进行令牌采样，计算视频片段各帧之间的相对权重，并根据权重向每帧分配不同的令牌数量；将令牌采样后的视频帧的与文字总结输入视频大语言模型，基于视频帧令牌与文字总结的匹配度，得到视频片段的关键帧。与现有技术相比，本发明利用令牌采样方法提高帧处理效率，解决现有长视频理解方法中，多模态大模型显存开销和视频信息完整性难以平衡的问题。

技术关键词

令牌大语言模型视频帧采样方法生成视频片段采样系统序列关键帧视觉特征信息编码器注意力字幕视频理解方法语义分段采样模块文本计算机视觉

系统为您推荐了相关专利信息

输出结果的生成方法及系统、电子设备、存储介质

检索策略大语言模型生成方法历史会话消息

问答处理方法、装置、电子设备、存储介质及计算机产品

关键词文本节点列表概念

文本生成方法、装置、设备、存储介质及程序产品

元素信息熵大语言模型身份文本生成方法

大语言模型应用管理平台的运维方法、系统及服务器

大语言模型功能模块运维模板平台

基于大语言模型的人事档案信息提取智能审核方法及系统

智能审核方法人事档案大语言模型可信度向量跨模态

一种面向长视频理解的采样方法及系统

站点导航

APP 下载