多模态大模型辅助的无监督跨模态视频检索方法及设备

正文

推荐专利

申请号：CN202410893508

申请日期：2024-07-03

公开号：CN118427396B

公开日期：2024-09-03

类型：发明专利

摘要

本申请提供一种多模态大模型辅助的无监督跨模态视频检索方法及设备。在本申请一个示例中，该方法包括：对于训练集中的任一视频，利用基于差异性评估的代表性视频帧采样方法，对该视频进行视频帧采样，得到该视频的代表帧，并利用预训练多模态文本标注大模型，生成对应的文本标注；依据代表帧与对应的文本标注之间的相关度，对不满足相关度要求的文本标注进行过滤；依据过滤后的文本标注，确定该视频的文本描述信息，得到视频‑文本描述信息对；依据训练集中各视频对应的视频‑文本描述信息对，对跨模态视频检索模型进行训练。该方法可以降低跨模态视频检索模型训练对人工标注的依赖。

技术关键词

代表性视频帧跨模态视频检索方法多模态视频特征提取采样方法图像匹配文本编码器视频编码器搜索特征视频检索装置计算机程序产品视觉特征提取过滤单元存储器

系统为您推荐了相关专利信息

用于脑卒中康复诊断的多模态置信度动态交互融合方法

融合方法矩阵矫正患者康复训练数据

AI辅助的微生物基因编辑靶点预测方法及系统

代谢网络模型编辑交叉注意力机制深度Q网络 Cas9基因

一种无轨胶轮车多模态检测方法及装置

无轨胶轮车深度学习框架历史运行数据因子多模态

基于多模态对齐的学习过程专注程度判断的方法及系统

多模态眼动数据双向长短期记忆网络热力图学生

一种药品质量快速检测系统

快速检测系统图像采集组件图像识别模块检测平台物质相互作用原理

多模态大模型辅助的无监督跨模态视频检索方法及设备

站点导航

APP 下载