摘要
本申请属于人工智能和金融、医疗领域,涉及一种语音合成方法,包括对待处理文本进行文本正则化,得到正则化文本;对所述正则化文本进行口语化改写,得到口语化文本;将所述口语化文本进行文本特征离散化,得到文本离散特征;对所述文本离散特征进行语音特征推理,得到语音离散特征;将所述语音离散特征进行解码,得到语音频谱信息;通过训练完成的声码器,将所述语音频谱信息转换为音频,输出合成语音。本申请还提供一种语音合成装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,待处理文本可存储于区块链中。本申请能够确保生成清晰自然的语音,有效提高了文本到语音转换的质量和真实感,提高语音合成实时性能。
技术关键词
离散特征
文本
语音特征
计算机可读指令
频谱特征
正则化模型
语音解码器
解码模型
分词
计算机设备
音频
声码器
多头注意力机制
叠层
可读存储介质
区块链技术
编码规则
系统为您推荐了相关专利信息
注意力
融合图像特征
跨模态融合特征
分支
金字塔网络
电能计量器件
文本特征向量
大语言模型
电能计量方法
电能计量电路