摘要
本发明属于视频时序定位技术领域,公开了一种基于大模型的视频时序定位方法及系统,获取原始视频数据和查询语句,将原始视频数据压缩为固定数量帧;提取每帧的图像特征,将图像特征逐帧映射至与大语言模型兼容的语义嵌入空间,获得连续的视频表征;提取查询语句的文本特征,将连续的视频表征与文本特征进行顺序拼接,获得图像文本对;在图像文本对的前端插入视觉提示符,获得视觉描述序列,将视觉描述序列输入大语言模型,以对视觉描述序列进行时序定位预测,输出视频数据定位结果;定义损失函数,对视频时序定位模型进行训练,利用训练好的视频时序定位模型进行视频时序定位。本发明能够引导大模型在进行视频片段的语义理解与定位时更加精确。
技术关键词
视频
时序
定位方法
视觉
数据压缩
文本
大语言模型
图像
语句
均匀采样方法
渐进式方法
序列
语义
计算机
模型训练模块
处理器
多轮对话
数据获取模块
对齐模块