一种视频片段定位方法

AITNT
正文
推荐专利
一种视频片段定位方法
申请号:CN202411826819
申请日期:2024-12-12
公开号:CN119938981B
公开日期:2025-12-30
类型:发明专利
摘要
本发明公开了一种视频片段定位方法,其涉及多模态机器学习技术领域。包括:将目标视频输入定位模型中,提取目标视频的视觉特征、音频特征和查询特征;为音频特征构造音频图,为视觉特征构造视频图,将音频图和视频图进行融合,得到融合特征;对融合特征和查询特征进行初步交互,得到初始融合特征;再对初始融合特征进行多次深度交互,得到最终融合特征;对最终融合模块进行建模,得到上下文信息;对上下文信息进行分析,得到定位片段的开始时间和结束时间。本发明通过利用音频信息的反馈,模型能够在视觉信息模糊或不完整的复杂环境下,更加有效地优化视觉特征的使用。
技术关键词
视频片段定位方法 融合特征 查询特征 视觉特征 音频特征 编码模块 多层感知器 视频编码 多模态机器学习 输入端 编码器 矩阵 定位模块 语义实体 节点 注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号