一种视频片段定位方法

正文

推荐专利

一种视频片段定位方法

申请号：CN202411826819

申请日期：2024-12-12

公开号：CN119938981B

公开日期：2025-12-30

类型：发明专利

摘要

本发明公开了一种视频片段定位方法，其涉及多模态机器学习技术领域。包括：将目标视频输入定位模型中，提取目标视频的视觉特征、音频特征和查询特征；为音频特征构造音频图，为视觉特征构造视频图，将音频图和视频图进行融合，得到融合特征；对融合特征和查询特征进行初步交互，得到初始融合特征；再对初始融合特征进行多次深度交互，得到最终融合特征；对最终融合模块进行建模，得到上下文信息；对上下文信息进行分析，得到定位片段的开始时间和结束时间。本发明通过利用音频信息的反馈，模型能够在视觉信息模糊或不完整的复杂环境下，更加有效地优化视觉特征的使用。

技术关键词

视频片段定位方法融合特征查询特征视觉特征音频特征编码模块多层感知器视频编码多模态机器学习输入端编码器矩阵定位模块语义实体节点注意力机制

一种视频片段定位方法

站点导航

APP 下载