摘要
本发明可应用于智慧医疗和金融领域,公开了一种端到端的语音合成方法、装置、计算机设备及存储介质,包括:获取待合成文本和参考音频;对所述待合成文本进行特征提取,得到包含上下文信息的文本特征;对所述参考音频进行特征提取,得到离散语音特征;基于神经网络模型构建所述文本特征和所述离散语音特征的对齐关系,生成当前语音帧的概率分布;基于声码器对所述当前语音帧的概率分布进行处理,得到所述待合成文本对应的语音波形,从而得到合成语音。本发明端到端的语音合成装置可从文本直接生成波形,简化了生成流程,可显著提升实时性,且通过神经网络模型显式学习文本与语音的对齐关系,不需要复杂的对齐操作,可进一步减少延迟。
技术关键词
语音特征
神经网络模型构建
声码器
文本编码器
音频
特征提取模块
计算机设备
波形
关系
GAN模型
语音编码器
可读存储介质
处理器
存储器
系统为您推荐了相关专利信息
美学
评论生成方法
文本编码器
图像编码器
二分类模型
状态监测方法
功率
光伏板
神经网络模型构建
曲线
健康监测方法
健康监测程序
视频流
多模态交互
健康监测数据