摘要
本申请提供了一种语音合成方法、语音合成装置和电子设备,该方法包括:获取文本数据和音频数据;采用文本编码器对文本数据进行编码,得到文本数据的离散编码,采用音频编码器对音频数据进行编码,得到音频数据的离散编码;根据语音语言模型、文本数据的离散编码和音频数据的离散编码,确定目标合成语音的离散编码,其中,文本数据的离散编码和音频数据的离散编码共同组成多层离散码本,任意两层离散编码之间具有时延,语音语言模型由大语言模型和语音合成模型组成;采用解码器对目标合成语音的离散编码进行解码,得到目标合成语音。解决了现有技术中合成语音的质量差的问题。
技术关键词
语音
音频编码器
数据
文本编码器
大语言模型
可读存储介质
注意力机制
解码器
电子设备
序列
时延
解码模块
编码模块
程序
系统为您推荐了相关专利信息
状态观测模型
状态监测方法
质子交换膜
燃料电池控制器
状态监测系统
光伏发电量
动态
电力需求响应技术
充放电策略
空调需求响应
数据传输系统
数据读取模块
读卡器
外部设备
数据存储模块
可视化构建方法
信号采集系统
爬行检测装置
管道探测器
磁信号检测装置