一种基于对应学习的点级监督视频片段定位方法及系统与应用

正文

推荐专利

申请号：CN202411437227

申请日期：2024-10-15

公开号：CN119649260B

公开日期：2025-10-24

类型：发明专利

摘要

本发明涉及一种基于对应学习的点级监督视频片段定位方法及系统与应用，属于目标视频片段定位技术领域，包括：先通过预训练模型提取特征，获得增强的视觉表示与增强的文本表示，对其进行处理，获得多粒度的文本表示与多粒度的视觉表示；最后对多粒度的文本表示最大池化，得到整合了整个句子语义信息的表示；在训练阶段利用高斯分布结合关键帧，对不同的视频片段进行度量；在推理阶段先识别出视频与查询的最佳匹配关键点再从该点扩展以获得与查询最相似的预测视频片段；利用由全局对齐损失、帧‑片段对应损失、片段‑帧对应损失三部分构成的模型损失优化模型。本发明解决了点监督下进行视频片段定位存在的粒度与尺度问题，有效提升了模型性能。

技术关键词

视频片段定位方法文本对齐模块跨模态多头注意力机制语义视觉特征预训练模型关键点特征提取模块滑动窗口多模态交互阶段查询特征大规模语料库关键帧加权损失函数

系统为您推荐了相关专利信息

大语言模型高质量文本数据集构建方法及系统

文本数据集构建方法行业词典大语言模型实体

一种基于跨模态特征的漏洞定位方法及系统

跨模态漏洞定位方法特征提取模块代码特征文本

一种基于AHP-模糊综合评价法的电商在线评论质量定量方法

定量计算方法定量方法指标模糊综合评价法覆盖率

一种电梯参数智能采集系统与方法

合格证智能采集系统拍摄设备录入系统识别设备

一种高性能的轻量化识别模型部署方法

模型部署方法表格高性能文本行增值税发票

一种基于对应学习的点级监督视频片段定位方法及系统与应用

站点导航

APP 下载