摘要
本申请涉及音视频处理技术领域,提供一种结合深度学习的音视频对象智能跟踪优化方法及系统。本申请中,通过获取同步的音视频数据组,对音频流与视频帧序列执行跨模态特征协同提取,生成包含音频时域动态特征与视频空间结构特征的多模态特征集;将多模态特征集输入预训练的关联增强网络生成跨模态语义对齐的关联特征序列;基于关联特征序列构建跟踪稳定性评估模型,输出稳定性指标;根据稳定性指标动态调整跟踪参数并校准初始跟踪结果,输出优化后的跟踪轨迹。由此,本申请通过深度融合音视频双模态特征,挖掘模态间的内在关联,结合动态评估与校准机制,提升了复杂场景下对象跟踪的精度与稳定性。
技术关键词
跟踪优化方法
空间结构特征
音视频
视频运动特征
视频帧
特征模板
上下文特征
运动向量
序列
机器可读存储介质
跨模态
多模态特征
语义
音频特征
对象跟踪
纹理分布特征
系统为您推荐了相关专利信息
涉水汽车
区域评估方法
计算机视觉
图像分割网络
特征提取网络
预置位
巡检路径
巡检机器人
视频帧
自动化巡检技术
运动特征
序列
视频理解方法
大语言模型
运动编码器