一种基于预训练语音模型的多语种声纹识别方法

正文

推荐专利

申请号：CN202510095338

申请日期：2025-01-21

公开号：CN120913569A

公开日期：2025-11-07

类型：发明专利

摘要

本发明公开了一种基于预训练语音模型的多语种声纹识别方法，利用预训练语音模型WavLM与传统声纹识别模型ECAPA‑TDNN相融合。本发明引入多层感知机(MLP)模块，用于进一步提炼和转换WavLM提取的特征，使其更适合于ECAPA‑TDNN模型的输入需求，增强了模型对特征的抽象和表达能力。对于多语种声纹识别方面，本发明利用少量语音数据集对模型进行微调，其基本步骤如下：首先，冻结预训练语音模型WavLM的参数，使其保持已学习到的知识。然后在训练中不断调整MLP模块及ECAPA‑TDNN模型参数使其学习到多语种声纹识别本领。在应用中，待识别语音经融合模型获得特征向量，该向量经过评判决策后，获得声纹识别的结果。

技术关键词

训练语音模型声纹识别方法卷积编码器变换器音频特征提取线性变换矩阵通道多层感知机输出特征 sigmoid函数参数声纹识别模型引入注意力机制多头注意力机制

系统为您推荐了相关专利信息

一种基于多维信息感知策略的语音情感识别方法和系统

语音情感识别方法 MFCC特征融合特征语音情感识别系统语音情感识别技术

基于WiFi信号的非接触式多模态用户身份识别方法

身份识别方法统计特征多模态接触式载波

一种酒店售卖房型和OTA平台可售房型的精准匹配方法

精准匹配方法权重分配机制平台个性化推荐服务学习系统

一种双有源桥DC-DC变换器无模型鲁棒预测控制方法

鲁棒预测控制方法扩张状态观测器代表数据驱动模型生成控制信号

基于多模态数据融合的虚拟数字人生成及交互优化系统

多模态数据融合个性化定制功能定制界面交互历史强化学习策略

一种基于预训练语音模型的多语种声纹识别方法

站点导航

APP 下载