摘要
本发明提供一种语音生成方法、装置、电子设备和存储介质,涉及计算机技术领域,包括:获取真实语音和内容文本;内容文本包括对真实语音进行转写得到的第一文本和用于生成与真实语音具有相同语音风格的待生成语音的第二文本;将真实语音和内容文本输入语音生成模型,得到待生成语音;语音生成模型包括时长预测模块和语音生成模块;时长预测模块用于基于内容文本的音素序列,以及第一文本的音素序列中各个音素的持续时长,确定第二文本的音素序列中各个音素的预测持续时长,得到内容文本的扩展音素序列;语音生成模块用于基于扩展音素序列和真实语音,生成待生成语音。本发明提供的方法和装置,提高了生成语音的稳定性和速度。
技术关键词
语音生成方法
语音生成模型
文本
生成语音
序列
解码单元
特征提取单元
扩展单元
模块
非暂态计算机可读存储介质
注意力
样本
电子设备
风格
处理器
生成装置
数据
存储器
解码器
系统为您推荐了相关专利信息
生成虚拟形象
构建用户画像
处理器
可读存储介质
人工智能技术