基于大模型的视频时序定位方法及系统

正文

推荐专利

基于大模型的视频时序定位方法及系统

申请号：CN202511125281

申请日期：2025-08-12

公开号：CN120997735A

公开日期：2025-11-21

类型：发明专利

摘要

本发明属于视频时序定位技术领域，公开了一种基于大模型的视频时序定位方法及系统，获取原始视频数据和查询语句，将原始视频数据压缩为固定数量帧；提取每帧的图像特征，将图像特征逐帧映射至与大语言模型兼容的语义嵌入空间，获得连续的视频表征；提取查询语句的文本特征，将连续的视频表征与文本特征进行顺序拼接，获得图像文本对；在图像文本对的前端插入视觉提示符，获得视觉描述序列，将视觉描述序列输入大语言模型，以对视觉描述序列进行时序定位预测，输出视频数据定位结果；定义损失函数，对视频时序定位模型进行训练，利用训练好的视频时序定位模型进行视频时序定位。本发明能够引导大模型在进行视频片段的语义理解与定位时更加精确。

技术关键词

视频时序定位方法视觉数据压缩文本大语言模型图像语句均匀采样方法渐进式方法序列语义计算机模型训练模块处理器多轮对话数据获取模块对齐模块

基于大模型的视频时序定位方法及系统

站点导航

APP 下载