一种语音合成方法、装置、设备及其存储介质

正文

推荐专利

申请号：CN202411395152

申请日期：2024-09-30

公开号：CN119446114B

公开日期：2025-09-30

类型：发明专利

摘要

本申请实施例属于语音处理技术领域，应用于文本转语音场景中，涉及一种语音合成方法、装置、设备及其存储介质，通过获取合成参考语音和待进行语音合成的文本数据；将文本数据进行文本编解码处理，获得目标文本字符序列；将目标文本字符序列输入到训练完成的音素预测模型中，预测目标文本字符序列中每个字符分别对应的音素特征和发音起止时间位置；根据音素特征和发音起止时间位置对目标文本字符序列进行声学解码处理，获得目标输出语音。通过采用模型预测方式，预测出目标文本字符序列中每个字符分别对应的音素特征和发音起止时间位置，根据每个文本字符逐个解码，从而合成出目标输出语音，实现了快速高质量的进行语音合成输出。

技术关键词

字符语音文本处理器发音序列 Viterbi算法嵌入位置信息计算机可读指令编解码解码器多头注意力机制预测模型训练规划可读存储介质动态数据获取模块编码

一种语音合成方法、装置、设备及其存储介质

站点导航

APP 下载