摘要
本申请公开了一种语音生成方法、装置、电子设备及计算机可读存储介质,涉及互联网技术领域,在构建语音生成模型的过程中额外引入了描述语音特点的音素持续时长和样本语音特征信息同时进行监督训练,使得语音生成模型能够生成较为自然的带有情感表达的特定说话人的高质量语音。所述方法包括:确定待转化为语音的目标声音特征信息、目标情感信息以及目标文本;利用语音生成模型对目标文本、目标声音特征信息和目标情感信息进行训练,得到目标语音;其中语音生成模型是基于样本文本对应的音素持续时长以及样本语音对应的样本语音特征信息对训练模型训练得到;样本语音特征信息包括以下至少一项:样本声音特征信息和样本情感信息;输出目标语音。
技术关键词
语音生成模型
样本
语音特征信息
文本
语音生成方法
对齐工具
序列特征
生成指令
可读存储介质
电子设备
索引
音频
互联网技术
时间段
生成装置
计算机
处理器
输出模块
系统为您推荐了相关专利信息
数据处理方法
参数
文本段落
关键词
可执行程序代码
计算机执行指令
终端设备
视频帧
人脸检测模型
状态空间模型
相关器
欺骗干扰检测方法
支路
欺骗干扰信号
伪随机码