摘要
本申请涉及人工智能技术领域,公开了一种基于人工智能的语音合成方法、装置、电子设备及存储介质。该方法包括:获取待合成文本,以及语音提示数据;输入待合成文本至预设的音素编码器,通过音素编码器解析待合成文本,得到第一音素数据;输入语音提示数据至预设的韵律提取器,通过韵律提取器解析语音提示数据,得到第一韵律数据;输入语音提示数据至预设的第一语音编码器,通过第一语音编码器解析语音提示数据,得到第一语音特征提示数据;嵌入第一音素数据至第一韵律数据,得到第二韵律数据;通过预设的第二语音解码器的处理第二韵律数据和第一语音特征提示数据,得到目标合成语音。该方法提升了基于大语言模型进行语音合成的稳定性。
技术关键词
语音特征
语音编码器
语音解码器
编码器解析
非易失性计算机可读存储介质
文本
计算机可执行指令
对齐工具
数据模块
基频估计算法
端点检测算法
电子设备
多头注意力机制
大语言模型
人工智能技术
数据获取模块
处理器