摘要
本发明提供一种语音合成方法、系统、电子设备及存储介质,其中方法包括:将目标对象的源语音的语音特征输入至语音合成模型中的编码器,得到源语音的第一编码特征和第二编码特征;将源语音的第一编码特征输入至语音合成模型中的年龄感知模块,得到第一年龄数据的目标年龄特征,并根据第一年龄数据的目标年龄特征,获取第二年龄数据的目标年龄特征;将第二年龄数据的目标年龄特征、源语音的第二编码特征和待合成的目标文本输入至语音合成模型中的语音合成模块,得到目标对象在第二年龄数据下的目标语音。本发明通过年龄特征解耦和年龄特征拉伸,有效实现在降低数据采集的成本和复杂度的同时,提高特定年龄语音的高精度合成。
技术关键词
编码特征
年龄
训练语音模型
声学特征
样本
语音特征
编码器
数据
文本
解码器
模块
对象
标签
非暂态计算机可读存储介质
训练声学模型
重构
特征提取单元
电子设备
字典