一种语音合成方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202411697743

申请日期：2024-11-25

公开号：CN119181349B

公开日期：2025-02-18

类型：发明专利

摘要

本发明提供一种语音合成方法、装置、电子设备及存储介质，涉及人工智能领域，方法包括：获取待合成文本和音色参考音频；将待合成文本输入预训练解码模型，以使预训练解码模型确定待合成文本对应的语音内容和语音风格，得到与待合成文本对应的语义特征；其中，预训练解码模型利用训练文本和对应的训练语义特征进行训练，训练语义特征利用训练文本对应的训练语音音频生成，训练语音音频具有预设语音风格；将语义特征、待合成文本和音色参考音频输入预训练语音合成模型进行语音合成，得到合成语音音频；可利用包含语音内容和语音风格的语义特征与待合成文本和音色参考音频共同进行语音合成，以实现音色风格解耦。

技术关键词

语义特征解码模型语音文本注意力风格计算机可执行指令解码器子模块编码器音频特征提取数值序列电子设备可读存储介质存储计算机程序线性

一种语音合成方法、装置、电子设备及存储介质

站点导航

APP 下载