基于视觉语言对齐差异优化的参数高效视频文本检索方法及设备

正文

推荐专利

申请号：CN202510738179

申请日期：2025-06-04

公开号：CN120561609A

公开日期：2025-08-29

类型：发明专利

摘要

本发明提供了一种基于视觉语言对齐差异优化的参数高效视频文本检索方法及设备，涉及机器学习领域。包括：获取样本视频和相匹配的样本文本描述；采样多帧样本图像并为每帧样本图像生成对应的伪样本文本描述；根据样本视频特征和样本文本特征确定视频级相似度，基于视频级相似度得到视频级语义对齐损失；根据样本图像特征和伪样本文本特征确定图像级相似度，基于图像级相似度得到图像级语义对齐损失；基于图像级相似度与视频级相似度得到图像到视频对齐蒸馏损失；基于视频级语义对齐损失、图像级语义对齐损失以及图像到视频对齐蒸馏损失，对待训练的视频文本检索模型进行训练得到目标视频文本检索模型，以提高视频文本检索的精度。

技术关键词

视频文本检索方法样本图像文本编码器注意力语义视觉蒸馏参数分支适配器大语言模型处理器模块多模态存储器模板电子设备

系统为您推荐了相关专利信息

人机交互方法、装置和车辆

指令界面屏幕截屏人机交互方法

一种面向教科研培场景的偏好扰动强化学习数据生成方法

学习数据生成方法个性化特征场景学生卷积神经网络提取

一种用于光伏用户参与电网调节的功率基线计算方法及系统

基线计算方法光伏发电功率 BIRCH聚类算法变量筛选方法数据划分方法

医学影像分割模型的训练方法、装置、介质及电子设备

影像参数图像提取模块数据计算机程序指令

一种虚拟地图AI生成方法及系统

地理图像数据相机拍摄参数移动机器人地图点云

基于视觉语言对齐差异优化的参数高效视频文本检索方法及设备

站点导航

APP 下载