摘要
本发明涉及一种基于多模态信息增强的弱监督视频片段检索方法,设备及介质,将未剪辑视频和查询文本输入到输入表示模块,得到视频特征和查询文本特征;同时将未剪辑视频输入场景分布检测模块中对视频帧进行聚类,得到场景特征。将视频特征、查询文本特征和场景特征输入提议片段生成模块,得到预测的候选提议片段。将候选提议片段输入提议片段增强模块中,得到多模态增强的片段特征。在提议片段评估模块中计算片段特征的查询文本重建损失和查询文本标签相似性损失,选取损失最小的片段作为检索结果,输出片段的开始和结束时间。与现有技术相比,本发明具有准确性高、时效性强和有效性强等优点。
技术关键词
视频片段检索方法
多模态信息
文本
场景特征
样本
标签特征
上下文语义信息
卷积神经网络提取
对象检测模型
模块
层次聚类算法
跨模态
时序结构
多层感知器
视频帧
运动检测
系统为您推荐了相关专利信息
多任务学习模型
主动学习框架
查询策略
推理网络
样本
致密砂岩
标注系统
图像编码器
语义特征
标注方法
网络攻击检测方法
灰狼优化算法
表达式
样本
编码器