摘要
本发明涉及一种基于对应学习的点级监督视频片段定位方法及系统与应用,属于目标视频片段定位技术领域,包括:先通过预训练模型提取特征,获得增强的视觉表示与增强的文本表示,对其进行处理,获得多粒度的文本表示与多粒度的视觉表示;最后对多粒度的文本表示最大池化,得到整合了整个句子语义信息的表示;在训练阶段利用高斯分布结合关键帧,对不同的视频片段进行度量;在推理阶段先识别出视频与查询的最佳匹配关键点再从该点扩展以获得与查询最相似的预测视频片段;利用由全局对齐损失、帧‑片段对应损失、片段‑帧对应损失三部分构成的模型损失优化模型。本发明解决了点监督下进行视频片段定位存在的粒度与尺度问题,有效提升了模型性能。
技术关键词
视频片段定位方法
文本
对齐模块
跨模态
多头注意力机制
语义
视觉特征
预训练模型
关键点
特征提取模块
滑动窗口
多模态交互
阶段
查询特征
大规模语料库
关键帧
加权损失函数
系统为您推荐了相关专利信息
跨模态
漏洞定位方法
特征提取模块
代码特征
文本
定量计算方法
定量方法
指标
模糊综合评价法
覆盖率
合格证
智能采集系统
拍摄设备
录入系统
识别设备