摘要
本发明公开了一种基于预训练语音模型的多语种声纹识别方法,利用预训练语音模型WavLM与传统声纹识别模型ECAPA‑TDNN相融合。本发明引入多层感知机(MLP)模块,用于进一步提炼和转换WavLM提取的特征,使其更适合于ECAPA‑TDNN模型的输入需求,增强了模型对特征的抽象和表达能力。对于多语种声纹识别方面,本发明利用少量语音数据集对模型进行微调,其基本步骤如下:首先,冻结预训练语音模型WavLM的参数,使其保持已学习到的知识。然后在训练中不断调整MLP模块及ECAPA‑TDNN模型参数使其学习到多语种声纹识别本领。在应用中,待识别语音经融合模型获得特征向量,该向量经过评判决策后,获得声纹识别的结果。
技术关键词
训练语音模型
声纹识别方法
卷积编码器
变换器
音频特征提取
线性变换矩阵
通道
多层感知机
输出特征
sigmoid函数
参数
声纹识别模型
引入注意力机制
多头注意力机制
系统为您推荐了相关专利信息
语音情感识别方法
MFCC特征
融合特征
语音情感识别系统
语音情感识别技术
精准匹配方法
权重分配机制
平台
个性化推荐服务
学习系统
鲁棒预测控制方法
扩张状态观测器
代表
数据驱动模型
生成控制信号
多模态数据融合
个性化定制功能
定制界面
交互历史
强化学习策略