一种基于BERT特征和风格编码的低资源语音合成系统

正文

推荐专利

申请号：CN202411708081

申请日期：2024-11-27

公开号：CN119207373A

公开日期：2024-12-27

类型：发明专利

摘要

本申请提供一种基于BERT特征和风格编码的低资源语音合成系统，涉及语音合成技术领域，系统包括用于获取待合成音频数据的音频获取模块，音频数据包括梅尔谱和文本数据；用于根据梅尔谱进行音色预测处理得到风格特征的梅尔谱风格编码模块；用于根据文本数据进行词语语句预测处理得到文本特征的BERT文本编码模块；用于根据梅尔谱和文本数据进行音高对齐预测处理得到音高能量特征的对齐框架模块；用于将风格特征、文本特征和音高能量特征进行标准化融合处理得到目标合成音频数据的标准化融合模块。本申请通过上述系统解决了现有声音合成技术无法在低资源的情况下合成较为准确的人声问题。

技术关键词

文本注意力机制编码模块风格语义特征词语数据语音音频解码器单元无监督资源拼接单元序列时序编码器特征提取单元

一种基于BERT特征和风格编码的低资源语音合成系统

站点导航

APP 下载