基于视觉语言对齐差异优化的参数高效视频文本检索方法及设备

AITNT
正文
推荐专利
基于视觉语言对齐差异优化的参数高效视频文本检索方法及设备
申请号:CN202510738179
申请日期:2025-06-04
公开号:CN120561609A
公开日期:2025-08-29
类型:发明专利
摘要
本发明提供了一种基于视觉语言对齐差异优化的参数高效视频文本检索方法及设备,涉及机器学习领域。包括:获取样本视频和相匹配的样本文本描述;采样多帧样本图像并为每帧样本图像生成对应的伪样本文本描述;根据样本视频特征和样本文本特征确定视频级相似度,基于视频级相似度得到视频级语义对齐损失;根据样本图像特征和伪样本文本特征确定图像级相似度,基于图像级相似度得到图像级语义对齐损失;基于图像级相似度与视频级相似度得到图像到视频对齐蒸馏损失;基于视频级语义对齐损失、图像级语义对齐损失以及图像到视频对齐蒸馏损失,对待训练的视频文本检索模型进行训练得到目标视频文本检索模型,以提高视频文本检索的精度。
技术关键词
视频 文本检索方法 样本 图像 文本编码器 注意力 语义 视觉 蒸馏 参数 分支 适配器 大语言模型 处理器 模块 多模态 存储器 模板 电子设备
系统为您推荐了相关专利信息
1
人机交互方法、装置和车辆
指令 界面 屏幕 截屏 人机交互方法
2
一种面向教科研培场景的偏好扰动强化学习数据生成方法
学习数据生成方法 个性化特征 场景 学生 卷积神经网络提取
3
一种用于光伏用户参与电网调节的功率基线计算方法及系统
基线计算方法 光伏发电功率 BIRCH聚类算法 变量筛选方法 数据划分方法
4
医学影像分割模型的训练方法、装置、介质及电子设备
影像 参数 图像提取模块 数据 计算机程序指令
5
一种虚拟地图AI生成方法及系统
地理图像数据 相机拍摄参数 移动机器人 地图 点云
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号