摘要
本发明公开了一种语音生成方法、装置、电子设备及可读存储介质,属于人工智能技术领域,包括将文本文件输入语音生成模型;将文本转化为音素文件;提取每个音素的时间长度,并对各音素按文本文件文字内容顺序排列;判断每个音素前后是否需要插入音素间隔特征,所述音素间隔特征包括音素延长音或每个音素前后的空白音中的至少一种;判断每个音素前后是否需要插入语言习惯特征,所述语言习惯特征为整个文本文件语言环境中,每个音素前后的口癖习惯;根据的生成结果合成语音文件。在本发明的方案中,在音素级别特征合成语音前,判断每个音素前后是否需要插入音素延长音或空白音或口癖习惯,可以有效的确保生成语音的拟人程度,提升用户的使用体验。
技术关键词
语音生成方法
间隔特征
习惯
语音生成模型
统计学方法
自然语言
电子设备
深度学习模型
存储计算机程序
人工智能技术
生成语音
图谱
生成装置
输入模块
非标准
可读存储介质
文本
频率