一种基于预训练语音模型的多语种声纹识别方法

AITNT
正文
推荐专利
一种基于预训练语音模型的多语种声纹识别方法
申请号:CN202510095338
申请日期:2025-01-21
公开号:CN120913569A
公开日期:2025-11-07
类型:发明专利
摘要
本发明公开了一种基于预训练语音模型的多语种声纹识别方法,利用预训练语音模型WavLM与传统声纹识别模型ECAPA‑TDNN相融合。本发明引入多层感知机(MLP)模块,用于进一步提炼和转换WavLM提取的特征,使其更适合于ECAPA‑TDNN模型的输入需求,增强了模型对特征的抽象和表达能力。对于多语种声纹识别方面,本发明利用少量语音数据集对模型进行微调,其基本步骤如下:首先,冻结预训练语音模型WavLM的参数,使其保持已学习到的知识。然后在训练中不断调整MLP模块及ECAPA‑TDNN模型参数使其学习到多语种声纹识别本领。在应用中,待识别语音经融合模型获得特征向量,该向量经过评判决策后,获得声纹识别的结果。
技术关键词
训练语音模型 声纹识别方法 卷积编码器 变换器 音频特征提取 线性变换矩阵 通道 多层感知机 输出特征 sigmoid函数 参数 声纹识别模型 引入注意力机制 多头注意力机制
系统为您推荐了相关专利信息
1
一种基于多维信息感知策略的语音情感识别方法和系统
语音情感识别方法 MFCC特征 融合特征 语音情感识别系统 语音情感识别技术
2
基于WiFi信号的非接触式多模态用户身份识别方法
身份识别方法 统计特征 多模态 接触式 载波
3
一种酒店售卖房型和OTA平台可售房型的精准匹配方法
精准匹配方法 权重分配机制 平台 个性化推荐服务 学习系统
4
一种双有源桥DC-DC变换器无模型鲁棒预测控制方法
鲁棒预测控制方法 扩张状态观测器 代表 数据驱动模型 生成控制信号
5
基于多模态数据融合的虚拟数字人生成及交互优化系统
多模态数据融合 个性化定制功能 定制界面 交互历史 强化学习策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号