摘要
本发明公开了一种视频片段定位方法,其涉及多模态机器学习技术领域。包括:将目标视频输入定位模型中,提取目标视频的视觉特征、音频特征和查询特征;为音频特征构造音频图,为视觉特征构造视频图,将音频图和视频图进行融合,得到融合特征;对融合特征和查询特征进行初步交互,得到初始融合特征;再对初始融合特征进行多次深度交互,得到最终融合特征;对最终融合模块进行建模,得到上下文信息;对上下文信息进行分析,得到定位片段的开始时间和结束时间。本发明通过利用音频信息的反馈,模型能够在视觉信息模糊或不完整的复杂环境下,更加有效地优化视觉特征的使用。
技术关键词
视频片段定位方法
融合特征
查询特征
视觉特征
音频特征
编码模块
多层感知器
视频编码
多模态机器学习
输入端
编码器
矩阵
定位模块
语义实体
节点
注意力机制