摘要
本发明公开了一种环境感知的可控背景去除和保留的语音合成系统,涉及语音领域,本发明提出了一个能够根据带噪提示语音感知声学环境,从而进行可控背景去除和保留的语音合成系统,以文本、提示语音和任务相关的控制信号作为输入,包含时长预测器、声学模型和双重提示语音编码器,在训练策略上,基于流匹配算法,进一步提出了可控的掩码语音预测训练策略,通过提供带噪的提示语音实现可控的背景去除和保留。本发明提高了系统处理带噪、混响和干扰说话人的提示语音的鲁棒性和可控性,能够在生成语音时有效地控制提示语音中含有的背景的去除与保留,实现更高的生成语音质量和更相似的声学背景。
技术关键词
语音编码器
ODE求解器
策略
声学模型建模
生成语音
信号
噪声语音
序列
文本
多任务
分类器
鲁棒性
参数
偏差
算法
索引
波形
系统为您推荐了相关专利信息
坐标
生成训练样本
识别模型训练方法
关键点
视频