摘要
本申请提供一种多模态大模型辅助的无监督跨模态视频检索方法及设备。在本申请一个示例中,该方法包括:对于训练集中的任一视频,利用基于差异性评估的代表性视频帧采样方法,对该视频进行视频帧采样,得到该视频的代表帧,并利用预训练多模态文本标注大模型,生成对应的文本标注;依据代表帧与对应的文本标注之间的相关度,对不满足相关度要求的文本标注进行过滤;依据过滤后的文本标注,确定该视频的文本描述信息,得到视频‑文本描述信息对;依据训练集中各视频对应的视频‑文本描述信息对,对跨模态视频检索模型进行训练。该方法可以降低跨模态视频检索模型训练对人工标注的依赖。
技术关键词
代表性视频帧
跨模态
视频检索方法
多模态
视频特征提取
采样方法
图像匹配
文本编码器
视频编码器
搜索特征
视频检索装置
计算机程序产品
视觉特征提取
过滤单元
存储器
系统为您推荐了相关专利信息
代谢网络模型
编辑
交叉注意力机制
深度Q网络
Cas9基因
无轨胶轮车
深度学习框架
历史运行数据
因子
多模态
多模态
眼动数据
双向长短期记忆网络
热力图
学生
快速检测系统
图像采集组件
图像识别模块
检测平台
物质相互作用原理