摘要
本申请提供了一种语音合成方法、系统、设备、存储介质及程序产品,涉及人工智能与语音处理技术领域,方法包括:获取与待合成语音文本数据相对应的梅尔频谱数据;将所述梅尔频谱数据输入基于选择性状态空间模型的神经声码器;基于所述神经声码器采用所述选择性状态空间模型对所述梅尔频谱数据进行长序列处理,得到与所述待合成语音文本数据相对应的合成音频数据。采用本申请能够基于状态空间模型构建神经声码器进行语音合成,提升高频重建能力避免高频细节的丢失,从而获得更好的合成音质。
技术关键词
状态空间模型
声码器
时序依赖关系
语音
生成对抗网络训练
序列
音频
文本
生成对抗网络模型
计算机程序产品
解码器
可读存储介质
数据获取模块
处理器
编码模块
波形
存储器
系统为您推荐了相关专利信息
移动通讯设备
通讯管理方法
通讯管理系统
管理关键词
特征提取单元
动态心电图
预警系统
长短期记忆网络
深度学习模型
指示标签
语音生成模型
视频生成模型
文本
生成方法
语音特征
文本识别模型
字符
语音活动检测系统
混合语音识别
标点预测方法