摘要
本发明涉及多模态数据检索和跨模态对比学习技术领域,公开了一种多标签提取和预筛选文本到视频的检索方法及系统,包括:从文本和视频数据中提取标签,生成标签集,并对标签集进行筛选;对视频库中的视频和输入文本进行特征提取,生成视频和文本的多标签概率分布;构建标签至视频ID的倒排索引,并将生成的多标签概率分布与倒排索引中的标签进行匹配;根据输入文本标签集的匹配结果,匹配的相关视频。通过多标签提取和预筛选框架,将视频和文本数据转换为离散的语义标签,并结合倒排索引技术,实现了快速标签匹配和视频预筛选,有效降低了计算复杂度。
技术关键词
多标签
检索方法
文本编码器
视频编码器
视频特征提取
检索算法
生成倒排索引
倒排索引技术
倒排索引结构
分类特征
高频标签
多模态
语义标签
检索系统
转换器
系统为您推荐了相关专利信息
跨模态融合特征
振动监测数据
生成轨迹
异构传感器网络
并行特征提取
尾纤
端口检测方法
计算机执行指令
多标签
分光器
样本
文本编码器
图像编码器
多层感知器
跨模态学习
电子数据检索系统
数据检索方法
大语言模型
自然语言
文本