摘要
本发明公开了一种基于改进Tacotron2模型的中文音节语音合成方法与系统,涉及语音合成技术领域,方法包括如下步骤:构建并训练中文音节语音合成模型;将待合成的音素音频输入训练好的中文音节语音合成模型以实现语音合成;所述中文音节语音合成模型包括:音节音频初始嵌入模块,编码模块、注意力感知模块、预网络、注意力模块、解码模块、后置网络层和线性频谱转换层。本发明可利用声韵母音频合成未有汉字载体的中文音节发音的音频,通过这种方法,即使某些发音没有对应的汉字也能够通过组合声母、韵母和声调来合成相应的音节,这不仅能够丰富中文语音合成的技术和应用,还能够为语言学研究提供新的工具和视角。
技术关键词
频谱特征
语音
音频
序列
注意力
滤波器
解码模块
编码模块
矩阵
线性
信号
索引
多层卷积神经网络
采样点
Softmax函数
频率