摘要
本发明涉及语音合成技术领域,尤其涉及一种基于多编码器特征解耦的跨语种语音合成系统及方法。采用如下技术方案:使用多编码器的音频编码器,对音频数据进行多特征解耦得到多种音频隐变量,再通过将多种音频隐变量进行拼接,再由文本隐变量进行拟合,最终由解码器解码得到输出音频。本发明的有益效果在于:便于文本隐变量进行拟合,从而提高跨语种语音合成准确度;且使用多种开源的单语种语音数据集,解决了现有方法依赖多语种语音音频价格高、难以扩展到更多语种的问题,通过使用单语种的开源数据集,可以通过统一的文本、音频处理方法,将任何语种添加到模型中,使得模型具有更强的鲁棒性和泛用性。
技术关键词
语音音频数据
编码器特征
变量
音频编码器
文本编码器
双向长短期记忆网络
解码器
模型训练模块
注意力
积层
多语种语音
发音字典
序列
系统为您推荐了相关专利信息
系统安全传输方法
Schur算法
信道
波束成形设计
场景
识别方法
微地震监测系统
一维拓扑结构
门控循环单元
裂隙网络
电力线巡检机器人
动态
因子
历史监测数据
实时监测数据
数据分析方法
生成多尺度
可视化参数
自定义参数
变量