摘要
本发明公开了一种端到端的语音合成方法,该方法包括获取待转换文本以及音频数据,并将待转换文本和音频数据输入到语音合成模型中;语音合成模型包括情感打分器、文本编码器、随机时间预测器、单调对齐搜索和合成解码器;通过情感打分器对音频数据进行情感识别,得到情感强度;通过文本编码器对待转换文本和情感强度进行特征提取,得到文本特征;通过随机时间预测器对文本特征进行持续时间预测,得到音素持续时间分布;通过单调对齐搜索对音素持续时间分布和所述文本特征进行特征对齐,得到对齐特征;通过合成解码器对对齐特征进行语音合成,得到目标语音数据。本发明实现了在语音合成中增加情感强度的表达,使得语音合成的效果更佳。
技术关键词
转换文本
文本编码器
语音
解码器
上采样
音频
打分器
强度
注意力
动态规划算法
数据输入模块
可读存储介质
特征提取模块
处理单元
对齐模块
处理器
编码模块
计算机设备
系统为您推荐了相关专利信息
光学解码器
池化特征
遥感图像变化检测
编解码器
编码器
融合视觉特征
地基云图分类方法
气象
注意力机制
交互特征