摘要
本发明提供一种提高扩散模型语音合成速度的系统及方法,系统包括:基于条件流匹配加速语音合成过程的声学模型,以及数据驱动的、可训练的声码器,声学模型与声码器信号连接,声码器输出的采样率与声学模型相匹配;声学模型的主体包含有用于通过正向扩散加噪和反向扩散去噪过程生成高质量语音的扩散模型。本发明能够以更少的迭代次数来生成声学特征,把声学特征传递给训练或微调后的声码器合成语音信号,提高了语音合成速度,能够将语音合成中声学模型的迭代次数减少到一次或两次,并且能够生成高质量的语音信号,不降低语言合成的质量,有效解决了现有的语音合成速度和语音合成质量不可兼得的矛盾,提升了语音合成效率。
技术关键词
声码器
语音
声学特征
速度
GAN模型
计算机设备
采样率
处理器
信号
可读存储介质
存储器
程序
数据
文本
序列