一种双阶段神经声码器的语音合成方法、系统、终端及介质

正文

推荐专利

申请号：CN202511548389

申请日期：2025-10-28

公开号：CN121034282A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种双阶段神经声码器的语音合成方法、系统、终端及介质，涉及语音合成技术领域，双阶段包括幅度重建阶段和相位生成阶段，方法包括：在幅度重建阶段中，基于ICCRN模型利用监督学习的方式得到估计幅度谱；在相位生成阶段时，基于幅度重建阶段中得到的估计幅度谱与ICCRN模型，结合生成对抗网络，生成与估计幅度谱高度拟合的相位谱；基于估计幅度谱与相位谱，得到合成后的语音样本。本发明将ICCRN模型应用在幅度谱重建阶段和相位谱生成阶段中，且在相位谱生成阶段，创新的提出GAN的方式，利用估计幅度谱去生成一个高度拟合幅度的相位谱，解决了相位‑幅度固有的一对多的关系，有利于提升音频保真度和设备兼容性。

技术关键词

卷积循环神经网络声码器阶段语音短时傅里叶变换生成对抗网络双向长短期记忆网络原位样本核心层结构可读存储介质滤波器线性频率多分辨率模块终端程序计算机

一种双阶段神经声码器的语音合成方法、系统、终端及介质

站点导航

APP 下载