结合深度学习的音视频对象智能跟踪优化方法及系统

正文

推荐专利

申请号：CN202511430903

申请日期：2025-10-09

公开号：CN120892764B

公开日期：2025-12-30

类型：发明专利

摘要

本申请涉及音视频处理技术领域，提供一种结合深度学习的音视频对象智能跟踪优化方法及系统。本申请中，通过获取同步的音视频数据组，对音频流与视频帧序列执行跨模态特征协同提取，生成包含音频时域动态特征与视频空间结构特征的多模态特征集；将多模态特征集输入预训练的关联增强网络生成跨模态语义对齐的关联特征序列；基于关联特征序列构建跟踪稳定性评估模型，输出稳定性指标；根据稳定性指标动态调整跟踪参数并校准初始跟踪结果，输出优化后的跟踪轨迹。由此，本申请通过深度融合音视频双模态特征，挖掘模态间的内在关联，结合动态评估与校准机制，提升了复杂场景下对象跟踪的精度与稳定性。

技术关键词

跟踪优化方法空间结构特征音视频视频运动特征视频帧特征模板上下文特征运动向量序列机器可读存储介质跨模态多模态特征语义音频特征对象跟踪纹理分布特征