基于多阶段多模态知识蒸馏策略的视听说话者跟踪方法

正文

推荐专利

申请号：CN202411518703

申请日期：2024-10-29

公开号：CN119416151A

公开日期：2025-02-11

类型：发明专利

摘要

本发明属于视听说话者跟踪技术领域，具体涉及一种基于多阶段多模态知识蒸馏策略的视听说话者跟踪方法，包括下列步骤：S1：获取多模态数据包括视觉数据和听觉数据，并对其进行数据预处理；S2：输入视觉教师网络进行视觉特征提取和说话者位置估计；S3：进行听觉特征提取和说话者位置估计；S4：在特征提取阶段计算特征协同损失；S5：计算融合引导损失；S6：计算Logits损失；S7：计算总损失，根据学生网络当前学习的状态，动态调整各损失权重。本发明提出通过构建视听教师‑学生模型，引入知识蒸馏范式来引导视听融合过程，将来自教师网络的知识逐步迁移到学生网络中，提高学生网络的定位能力和融合能力。

技术关键词

听觉跟踪方法教师多阶段视听多模态学生网络视觉特征提取蒸馏音频图像策略麦克风阵列多通道数据

系统为您推荐了相关专利信息

基于局部和全局特征多阶段融合的小样本图像分类方法

图像分类方法样本多阶段逻辑回归分类器图像提取特征

一种基于多阶段鲁棒优化的新能源场站储能容量配置方法

储能容量配置方法新能源场站多阶段储能系统容量充放电功率

一种基于深度学习的图像识别方法

图像识别方法多阶段特征稀疏特征模糊隶属度矩阵

一种用于微生物群落动态监测的荧光标记定量跟踪方法

荧光标记探针跟踪方法荧光检测设备动态序列

一种动静分析结合的容器系统调用危险评估名单生成方法

名单生成方法容器系统代码系统漏洞生成容器

基于多阶段多模态知识蒸馏策略的视听说话者跟踪方法

站点导航

APP 下载