基于多阶段多模态知识蒸馏策略的视听说话者跟踪方法

AITNT
正文
推荐专利
基于多阶段多模态知识蒸馏策略的视听说话者跟踪方法
申请号:CN202411518703
申请日期:2024-10-29
公开号:CN119416151A
公开日期:2025-02-11
类型:发明专利
摘要
本发明属于视听说话者跟踪技术领域,具体涉及一种基于多阶段多模态知识蒸馏策略的视听说话者跟踪方法,包括下列步骤:S1:获取多模态数据包括视觉数据和听觉数据,并对其进行数据预处理;S2:输入视觉教师网络进行视觉特征提取和说话者位置估计;S3:进行听觉特征提取和说话者位置估计;S4:在特征提取阶段计算特征协同损失;S5:计算融合引导损失;S6:计算Logits损失;S7:计算总损失,根据学生网络当前学习的状态,动态调整各损失权重。本发明提出通过构建视听教师‑学生模型,引入知识蒸馏范式来引导视听融合过程,将来自教师网络的知识逐步迁移到学生网络中,提高学生网络的定位能力和融合能力。
技术关键词
听觉 跟踪方法 教师 多阶段 视听 多模态 学生 网络 视觉特征提取 蒸馏 音频 图像 策略 麦克风阵列 多通道 数据
系统为您推荐了相关专利信息
1
基于局部和全局特征多阶段融合的小样本图像分类方法
图像分类方法 样本 多阶段 逻辑回归分类器 图像提取特征
2
一种基于多阶段鲁棒优化的新能源场站储能容量配置方法
储能容量配置方法 新能源场站 多阶段 储能系统容量 充放电功率
3
一种基于深度学习的图像识别方法
图像识别方法 多阶段特征 稀疏特征 模糊隶属度 矩阵
4
一种用于微生物群落动态监测的荧光标记定量跟踪方法
荧光标记探针 跟踪方法 荧光检测设备 动态 序列
5
一种动静分析结合的容器系统调用危险评估名单生成方法
名单生成方法 容器系统 代码系统 漏洞 生成容器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号