一种语音声纹解耦模型构建方法及系统

AITNT
正文
推荐专利
一种语音声纹解耦模型构建方法及系统
申请号:CN202510406260
申请日期:2025-04-01
公开号:CN120260576A
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种语音声纹解耦模型构建方法及系统,应用于语音处理和人工智能技术领域。方法包括以下步骤:通过编码器从输入语音中提取连续的潜在特征;利用量化码本将连续的潜在特征量化为离散的文本特征;计算编码器输出与文本特征的差值,得到说话人声纹特征;将文本特征与说话人声纹特征组合,输入解码器生成转换后的语音;分别计算语音的重构损失、隐藏编码损失、声纹一致性损失和对比损失;联合各损失优化编码器、量化码本和解码器,优化方向为最小化重构损失、隐藏编码损失和声纹一致性损失,最大化对比损失。本发明在模型复杂度和性能之间取得了良好平衡,保证了解耦效率。
技术关键词
模型构建方法 声纹特征 语音 重构 输入解码器 编码器 文本 音频 模型构建系统 联合损失函数 连续特征 特征提取模块 人工智能技术 样本 解码模块 复杂度 误差
系统为您推荐了相关专利信息
1
基于动态扩散阈值的纸质心电图电压值重构方法及系统
重构方法 信噪比差值 电压 像素 波形
2
基于小波变换卷积的声纹识别方法、系统、终端及介质
梅尔倒谱系数 声纹识别方法 声纹特征 声纹识别模型 多通道多尺度
3
一种适用于农村老年人群的听力筛查系统
硬件设备 筛查系统 听力 语音 老年人
4
固态硬盘性能评估方法、装置、计算机设备以及存储介质
固态硬盘 性能评估方法 时序预测模型 异常信息 深度学习模型
5
多模态交互方法、装置、电子设备和存储介质
多模态交互方法 意图 图像 车内摄像头 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号