一种语音声纹解耦模型构建方法及系统

正文

推荐专利

一种语音声纹解耦模型构建方法及系统

申请号：CN202510406260

申请日期：2025-04-01

公开号：CN120260576A

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了一种语音声纹解耦模型构建方法及系统，应用于语音处理和人工智能技术领域。方法包括以下步骤：通过编码器从输入语音中提取连续的潜在特征；利用量化码本将连续的潜在特征量化为离散的文本特征；计算编码器输出与文本特征的差值，得到说话人声纹特征；将文本特征与说话人声纹特征组合，输入解码器生成转换后的语音；分别计算语音的重构损失、隐藏编码损失、声纹一致性损失和对比损失；联合各损失优化编码器、量化码本和解码器，优化方向为最小化重构损失、隐藏编码损失和声纹一致性损失，最大化对比损失。本发明在模型复杂度和性能之间取得了良好平衡，保证了解耦效率。

技术关键词

模型构建方法声纹特征语音重构输入解码器编码器文本音频模型构建系统联合损失函数连续特征特征提取模块人工智能技术样本解码模块复杂度误差

系统为您推荐了相关专利信息

基于动态扩散阈值的纸质心电图电压值重构方法及系统

重构方法信噪比差值电压像素波形

基于小波变换卷积的声纹识别方法、系统、终端及介质

梅尔倒谱系数声纹识别方法声纹特征声纹识别模型多通道多尺度

一种适用于农村老年人群的听力筛查系统

硬件设备筛查系统听力语音老年人

固态硬盘性能评估方法、装置、计算机设备以及存储介质

固态硬盘性能评估方法时序预测模型异常信息深度学习模型

多模态交互方法、装置、电子设备和存储介质

多模态交互方法意图图像车内摄像头文本

一种语音声纹解耦模型构建方法及系统

站点导航

APP 下载