摘要
本发明属于视听说话者跟踪技术领域,具体涉及一种基于多阶段多模态知识蒸馏策略的视听说话者跟踪方法,包括下列步骤:S1:获取多模态数据包括视觉数据和听觉数据,并对其进行数据预处理;S2:输入视觉教师网络进行视觉特征提取和说话者位置估计;S3:进行听觉特征提取和说话者位置估计;S4:在特征提取阶段计算特征协同损失;S5:计算融合引导损失;S6:计算Logits损失;S7:计算总损失,根据学生网络当前学习的状态,动态调整各损失权重。本发明提出通过构建视听教师‑学生模型,引入知识蒸馏范式来引导视听融合过程,将来自教师网络的知识逐步迁移到学生网络中,提高学生网络的定位能力和融合能力。
技术关键词
听觉
跟踪方法
教师
多阶段
视听
多模态
学生
网络
视觉特征提取
蒸馏
音频
图像
策略
麦克风阵列
多通道
数据
系统为您推荐了相关专利信息
图像分类方法
样本
多阶段
逻辑回归分类器
图像提取特征
储能容量配置方法
新能源场站
多阶段
储能系统容量
充放电功率
图像识别方法
多阶段特征
稀疏特征
模糊隶属度
矩阵