摘要
本发明公开了一种双阶段神经声码器的语音合成方法、系统、终端及介质,涉及语音合成技术领域,双阶段包括幅度重建阶段和相位生成阶段,方法包括:在幅度重建阶段中,基于ICCRN模型利用监督学习的方式得到估计幅度谱;在相位生成阶段时,基于幅度重建阶段中得到的估计幅度谱与ICCRN模型,结合生成对抗网络,生成与估计幅度谱高度拟合的相位谱;基于估计幅度谱与相位谱,得到合成后的语音样本。本发明将ICCRN模型应用在幅度谱重建阶段和相位谱生成阶段中,且在相位谱生成阶段,创新的提出GAN的方式,利用估计幅度谱去生成一个高度拟合幅度的相位谱,解决了相位‑幅度固有的一对多的关系,有利于提升音频保真度和设备兼容性。
技术关键词
卷积循环神经网络
声码器
阶段
语音
短时傅里叶变换
生成对抗网络
双向长短期记忆网络
原位
样本
核心层结构
可读存储介质
滤波器
线性
频率
多分辨率
模块
终端
程序
计算机
系统为您推荐了相关专利信息
终端设备
界面
设备控制方法
记忆
计算机程序代码
对话分析方法
策略
情感识别模型
多模态对话
智能护理系统
拓扑优化方法
热传导
水平集函数
控制拓扑结构
格式三维模型