一种语音合成方法、装置、设备及其存储介质

正文

推荐专利

申请号：CN202410867875

申请日期：2024-06-28

公开号：CN118609543A

公开日期：2024-09-06

类型：发明专利

摘要

本申请实施例属于语音合成技术领域，应用于A I语音智能合成场景中，涉及一种语音合成方法、装置、设备及其存储介质，包括解析下游语音合成任务请求数据；将目标数据输入到非自回归语音识别模型，获取目标声学特征和目标语义特征；将目标声学特征和目标语义特征，输入到音频编码器编码；对编码结果进行优化操作，再通过音频解码器解码出合成语音。采用非自回归语音识别模型能够并行输出识别结果，高效结合CPU算力进行识别推理，实现A I智能语音合成场景下的语音快速合成，并结合目标语义特征实现跨语种的语音合成，将该语音合成方法，应用到自媒体行业或者金融客服服务行业，为客户提供更加优质和悦耳的音质服务功能。

技术关键词

音频编码器语义特征声学特征语音识别模型文本信息提取音频解码器数据计算机可读指令训练集注意力机制语音特征提取可读存储介质智能语音

一种语音合成方法、装置、设备及其存储介质

站点导航

APP 下载