摘要
本发明公开了一种基于人工智能的语音合成方法、装置、设备及存储介质,方法包括:获取参考梅尔频谱和目标文本;将参考梅尔频谱输入至变分自编码器,以获取变分自编码器输出的说话人潜在表示和口音潜在表示;将目标文本输入至预先训练好的文本编码器,以获取预先训练好的文本编码器输出的音素嵌入表示;将说话人潜在表示和口音潜在表示输入至目标矢量量化器,以获取目标矢量量化器输出的说话人嵌入表示和口音嵌入表示;根据音素嵌入表示、说话人嵌入表示和口音嵌入表示,生成目标合成梅尔频谱;将目标合成梅尔频谱转换为目标语音。本申请可应用于金融科技、医疗健康养老等业务场景中的智能语音客服中,以提高合成语音的灵活性和个性化程度。
技术关键词
矢量量化器
文本编码器
输入模块
智能语音客服
线性
可读存储介质
适配器
医疗健康
解码器
处理器
传播算法
计算机设备
存储器
矩阵