摘要
本发明公开了一种基于音色解耦的零样本语音转换方法,包括:分别获取待转换语音和目标说话人的参考语音;构建零样本语音转换模型;将待转换语音与目标说话人的参考语音共同输入零样本语音转换模型中进行处理,输出转换结果;零样本语音转换模型包括内容解耦模块、音色解耦与提取模块、语音转换与重构模块;通过内容解耦模块生成音色随机变化但语义内容保持不变的语音,通过音色解耦与提取模块提取目标说话人参考语音中的音色并强化音色表征,基于语音转换与重构模块生成音色转换后的语音。本发明实现了仅使用任意目标说话人的一条语音作为参考,将源语音中的声音风格特征转换为目标说话人,同时保持语义内容与源语音一致。
技术关键词
语音转换方法
重构模块
说话人身份信息
嵌入特征
样本
音色特征
编码器
训练语音模型
语义
卷积模块
融合特征
多尺寸
输入多尺度
对抗性
分类器
注意力
数据
系统为您推荐了相关专利信息
锂离子电池充放电
样本
预警方法
模型训练方法
电流
地层孔隙压力
更新方法
Pearson相关系数
录井数据
滤波方法
智能分析系统
数据采集模块
人机交互模块
识别模块
诊断模块
作业参数
清洁一体机
参数优化控制方法
图像采集单元
喷涂单元
视频理解方法
局部视觉特征
指令
注意力机制
大语言模型