基于渐进式交互和多模态对齐的视频片段句子定位方法

正文

推荐专利

申请号：CN202510051849

申请日期：2025-01-14

公开号：CN119478794B

公开日期：2025-04-29

类型：发明专利

摘要

本发明涉及计算机视觉和自然语言处理技术领域，尤其涉及一种基于渐进式交互和多模态对齐的视频片段句子定位算法。步骤如下：首先将与视频相关的所有查询句子根据该查询句子对应的视频片段在视频中的顺序进行排序后与视频特征和在特征维度进行拼接，再将其经过多模态对齐模块提取视频与查询句子特征各自的模态内信息以及两个模态之间的信息，随后根据与查询句子交互后的视频特征生成多个候选片段，通过分组候选片段交互模块学习候选片段之间的关系，然后通过度量学习缩小对应的候选片段特征与查询句子特征对的差异，最后将所有候选片段特征与单个查询句子特征计算匹配分数，分数高的作为预测结果。本发明可以精准地对视频片段进行定位。

技术关键词

视频多模态序列融合分支定位方法自然语言序列特征矩阵持久层框架机制通道卷积模型对齐模块计算机视觉模态特征定位算法时间段融合特征三维模型

基于渐进式交互和多模态对齐的视频片段句子定位方法

站点导航

APP 下载