摘要
本发明涉及一种提升合成音频自然度以及降噪的方法,包括以下步骤:步骤1,构建音素编码器,步骤2,构建方差适配器,步骤3,构建频谱降噪器,实现提升合成音频自然度以及降噪;该方案提出在音素编码器阶段,加入基于Transformer的双向编码器,能够利用较少的训练资源,完成语音合成模型的训练;本发明首次将具有选择性状态空间的线性时间序列建模用于语音合成任务,借助于小波分解在图像去噪领域的应用,将其引入语音合成网络,成功地减少了生成音频的噪声。
技术关键词
编码器
音频
适配器
深度学习模型
维基百科
时间序列模型
降噪器
符号
线性
生成训练样本
语音
数据
状态空间模型
前馈神经网络
文本
处理器
注意力机制
计算机
系统为您推荐了相关专利信息
装车管理方法
订单
路径规划算法
车辆行驶里程
调度管理方法
标签训练集
分析方法
深度学习模型
多标签
文本分类器
环境图像数据
运动图像数据
羽毛球击球点
非暂态计算机可读存储介质
深度学习模型
校园安全监控方法
监测策略
校园安全监控系统
通信链路
学生
纤维复合材料
分布预测方法
图像编码器
闭环反馈机制
缺陷分类器