摘要
本申请提供一种基于BERT特征和风格编码的低资源语音合成系统,涉及语音合成技术领域,系统包括用于获取待合成音频数据的音频获取模块,音频数据包括梅尔谱和文本数据;用于根据梅尔谱进行音色预测处理得到风格特征的梅尔谱风格编码模块;用于根据文本数据进行词语语句预测处理得到文本特征的BERT文本编码模块;用于根据梅尔谱和文本数据进行音高对齐预测处理得到音高能量特征的对齐框架模块;用于将风格特征、文本特征和音高能量特征进行标准化融合处理得到目标合成音频数据的标准化融合模块。本申请通过上述系统解决了现有声音合成技术无法在低资源的情况下合成较为准确的人声问题。
技术关键词
文本
注意力机制
编码模块
风格
语义特征
词语
数据
语音
音频
解码器单元
无监督
资源
拼接单元
序列
时序
编码器
特征提取单元