摘要
本申请实施例属于语音合成技术领域,应用于A I语音智能合成场景中,涉及一种语音合成方法、装置、设备及其存储介质,包括解析下游语音合成任务请求数据;将目标数据输入到非自回归语音识别模型,获取目标声学特征和目标语义特征;将目标声学特征和目标语义特征,输入到音频编码器编码;对编码结果进行优化操作,再通过音频解码器解码出合成语音。采用非自回归语音识别模型能够并行输出识别结果,高效结合CPU算力进行识别推理,实现A I智能语音合成场景下的语音快速合成,并结合目标语义特征实现跨语种的语音合成,将该语音合成方法,应用到自媒体行业或者金融客服服务行业,为客户提供更加优质和悦耳的音质服务功能。
技术关键词
音频编码器
语义特征
声学特征
语音识别模型
文本信息提取
音频解码器
数据
计算机可读指令
训练集
注意力机制
语音特征提取
可读存储介质
智能语音