摘要
本发明公开了一种基于多尺度蒸馏的轻量化说话人识别方法,利用自监督预训练的教师模型提取高质量说话人嵌入,通过预测增强机制和多尺度对齐策略,将知识迁移至轻量级学生模型。预测增强机制通过基础温度池和非对称温度缩放生成多样化的软标签,提升学生模型的学习能力;多尺度对齐策略从单样本、批量样本和类别三个层面优化知识传递,确保学生模型全面学习教师模型的表示能力;联合优化结合分类损失和对齐损失,进一步提升模型性能。本发明显著降低模型参数量和计算复杂度,适用于移动终端和嵌入式系统等场景,同时保持在复杂语音环境下的鲁棒性和泛化能力,具有广泛的实际应用价值。
技术关键词
说话人识别方法
教师
学生
多尺度
轻量化神经网络
样本
策略
蒸馏
批量
模型压缩
嵌入式系统
语音特征
参数
矩阵
复杂度
跨设备
数据
机制
移动终端
系统为您推荐了相关专利信息
差分解码器
混合模块
混合编码器
融合特征
子模块
配电综合监控系统
融合物联网
时间序列模型
设备运行参数
智能控制模块