基于大模型的视频时序定位方法及系统

AITNT
正文
推荐专利
基于大模型的视频时序定位方法及系统
申请号:CN202511125281
申请日期:2025-08-12
公开号:CN120997735A
公开日期:2025-11-21
类型:发明专利
摘要
本发明属于视频时序定位技术领域,公开了一种基于大模型的视频时序定位方法及系统,获取原始视频数据和查询语句,将原始视频数据压缩为固定数量帧;提取每帧的图像特征,将图像特征逐帧映射至与大语言模型兼容的语义嵌入空间,获得连续的视频表征;提取查询语句的文本特征,将连续的视频表征与文本特征进行顺序拼接,获得图像文本对;在图像文本对的前端插入视觉提示符,获得视觉描述序列,将视觉描述序列输入大语言模型,以对视觉描述序列进行时序定位预测,输出视频数据定位结果;定义损失函数,对视频时序定位模型进行训练,利用训练好的视频时序定位模型进行视频时序定位。本发明能够引导大模型在进行视频片段的语义理解与定位时更加精确。
技术关键词
视频 时序 定位方法 视觉 数据压缩 文本 大语言模型 图像 语句 均匀采样方法 渐进式方法 序列 语义 计算机 模型训练模块 处理器 多轮对话 数据获取模块 对齐模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号