摘要
本发明提供了一种个性化文本转语音的方法、系统及相关设备,方法包括使用非标单说话人的文本/音频语料对深度学习模型进行训练,获得非标文本转语音模型;获取定制音色的单说话人参考音频和待转换的目标文本;将所述目标文本输入所述非标文本转语音模型中,获得所述目标文本的声谱表示;利用声纹编码器从所述单说话人参考音频中提取得到目标说话人的音色嵌入向量;将所述声谱表示和所述音色嵌入向量进行融合后输入神经声码器中,获得个性化语音波形。本发明的方法只需通过单说话人的非标语言数据即可实现音色迁移个性化音频的合成,降低了方案实现难度,能够更好的满足用户需求。
技术关键词
文本
深度学习模型
声谱
个性化语音
音频
音色特征
声码器
编码器
多层注意力机制
声学特征
波形
生成对抗网络
序列
模型训练模块
可读存储介质
神经网络模型
存储器
数据获取模块
处理器
系统为您推荐了相关专利信息
技能评估
决策
能力知识图谱
智能化管理技术
指令
骨骼识别方法
骨骼模型
多模态
深度学习模型
动作特征
图像分类方法
预训练模型
文本编码器
图像编码器
多模态
功率控制方法
终端设备
信令交互数据
模式
语音提示信息