一种面向长视频理解的采样方法及系统

AITNT
正文
推荐专利
一种面向长视频理解的采样方法及系统
申请号:CN202510873208
申请日期:2025-06-27
公开号:CN120388323B
公开日期:2025-08-26
类型:发明专利
摘要
本发明涉及计算机视觉领域,具体为一种面向长视频理解的采样方法及系统,步骤包括:获取长视频及视频字幕作为输入,利用视频大模型将长视频分成多个语义一致的视频片段;对于各个视频片段通过视觉编码器映射得到输入序列,将输入序列输入视频大语言模型中,生成视频片段的文字总结;对于视频片段进行令牌采样,计算视频片段各帧之间的相对权重,并根据权重向每帧分配不同的令牌数量;将令牌采样后的视频帧的与文字总结输入视频大语言模型,基于视频帧令牌与文字总结的匹配度,得到视频片段的关键帧。与现有技术相比,本发明利用令牌采样方法提高帧处理效率,解决现有长视频理解方法中,多模态大模型显存开销和视频信息完整性难以平衡的问题。
技术关键词
令牌 大语言模型 视频帧 采样方法 生成视频片段 采样系统 序列 关键帧 视觉特征 信息编码器 注意力 字幕 视频理解方法 语义 分段 采样模块 文本 计算机视觉
系统为您推荐了相关专利信息
1
输出结果的生成方法及系统、电子设备、存储介质
检索策略 大语言模型 生成方法 历史会话 消息
2
问答处理方法、装置、电子设备、存储介质及计算机产品
关键词 文本 节点 列表 概念
3
文本生成方法、装置、设备、存储介质及程序产品
元素 信息熵 大语言模型 身份 文本生成方法
4
大语言模型应用管理平台的运维方法、系统及服务器
大语言模型 功能模块 运维 模板 平台
5
基于大语言模型的人事档案信息提取智能审核方法及系统
智能审核方法 人事档案 大语言模型 可信度向量 跨模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号