摘要
本发明提供了一种基于视觉语言对齐差异优化的参数高效视频文本检索方法及设备,涉及机器学习领域。包括:获取样本视频和相匹配的样本文本描述;采样多帧样本图像并为每帧样本图像生成对应的伪样本文本描述;根据样本视频特征和样本文本特征确定视频级相似度,基于视频级相似度得到视频级语义对齐损失;根据样本图像特征和伪样本文本特征确定图像级相似度,基于图像级相似度得到图像级语义对齐损失;基于图像级相似度与视频级相似度得到图像到视频对齐蒸馏损失;基于视频级语义对齐损失、图像级语义对齐损失以及图像到视频对齐蒸馏损失,对待训练的视频文本检索模型进行训练得到目标视频文本检索模型,以提高视频文本检索的精度。
技术关键词
视频
文本检索方法
样本
图像
文本编码器
注意力
语义
视觉
蒸馏
参数
分支
适配器
大语言模型
处理器
模块
多模态
存储器
模板
电子设备
系统为您推荐了相关专利信息
学习数据生成方法
个性化特征
场景
学生
卷积神经网络提取
基线计算方法
光伏发电功率
BIRCH聚类算法
变量筛选方法
数据划分方法
地理图像数据
相机拍摄参数
移动机器人
地图
点云