摘要
本发明公开了一种语音声纹解耦模型构建方法及系统,应用于语音处理和人工智能技术领域。方法包括以下步骤:通过编码器从输入语音中提取连续的潜在特征;利用量化码本将连续的潜在特征量化为离散的文本特征;计算编码器输出与文本特征的差值,得到说话人声纹特征;将文本特征与说话人声纹特征组合,输入解码器生成转换后的语音;分别计算语音的重构损失、隐藏编码损失、声纹一致性损失和对比损失;联合各损失优化编码器、量化码本和解码器,优化方向为最小化重构损失、隐藏编码损失和声纹一致性损失,最大化对比损失。本发明在模型复杂度和性能之间取得了良好平衡,保证了解耦效率。
技术关键词
模型构建方法
声纹特征
语音
重构
输入解码器
编码器
文本
音频
模型构建系统
联合损失函数
连续特征
特征提取模块
人工智能技术
样本
解码模块
复杂度
误差
系统为您推荐了相关专利信息
梅尔倒谱系数
声纹识别方法
声纹特征
声纹识别模型
多通道多尺度
固态硬盘
性能评估方法
时序预测模型
异常信息
深度学习模型