摘要
本发明公开了一种基于上下文学习的端到端的背景保留语音转换方法,包括将零填充的目标说话人干净语音梅尔频谱、重复填充的源说话人带背景声语音梅尔频谱和拼接的语义标记、对齐输入预训练好的生成模型,得到目标说话人带背景声语音梅尔频谱,经声码器处理输出目标说话人带背景语音,该语音的音色转换为源说话人语音的音色,并保留了目标说话人语音的内容和背景声音。本发明通过单一模型实现语音转换和背景保留的双重功能,显著降低了系统复杂度,同时避免引入失真风险,模型能够从原始带噪音频中学习背景声,并根据输入条件自适应地生成带背景声或不带背景声的语音信号,能够满足不同场景的需求。
技术关键词
语音转换方法
语义
标记
预训练模型
生成语音
变量
复杂度
定义
场景
算法
风险
参数
信号
系统为您推荐了相关专利信息
海底地貌
海底声呐
图像识别方法
语义特征
图像识别系统
统一接口网关
可视化大屏
多模态
布局优化算法
支撑模块