一种双阶段神经声码器的语音合成方法、系统、终端及介质

AITNT
正文
推荐专利
一种双阶段神经声码器的语音合成方法、系统、终端及介质
申请号:CN202511548389
申请日期:2025-10-28
公开号:CN121034282A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种双阶段神经声码器的语音合成方法、系统、终端及介质,涉及语音合成技术领域,双阶段包括幅度重建阶段和相位生成阶段,方法包括:在幅度重建阶段中,基于ICCRN模型利用监督学习的方式得到估计幅度谱;在相位生成阶段时,基于幅度重建阶段中得到的估计幅度谱与ICCRN模型,结合生成对抗网络,生成与估计幅度谱高度拟合的相位谱;基于估计幅度谱与相位谱,得到合成后的语音样本。本发明将ICCRN模型应用在幅度谱重建阶段和相位谱生成阶段中,且在相位谱生成阶段,创新的提出GAN的方式,利用估计幅度谱去生成一个高度拟合幅度的相位谱,解决了相位‑幅度固有的一对多的关系,有利于提升音频保真度和设备兼容性。
技术关键词
卷积循环神经网络 声码器 阶段 语音 短时傅里叶变换 生成对抗网络 双向长短期记忆网络 原位 样本 核心层结构 可读存储介质 滤波器 线性 频率 多分辨率 模块 终端 程序 计算机
系统为您推荐了相关专利信息
1
设备控制方法、电子设备、可读存储介质和芯片
终端设备 界面 设备控制方法 记忆 计算机程序代码
2
基于人工智能的护理系统对话分析方法及系统
对话分析方法 策略 情感识别模型 多模态对话 智能护理系统
3
基于语义特征和生物启发的RGB-D显著目标检测方法
语义特征 融合特征 图像 令牌 注意力机制
4
基于grpc框架的多模型训练方法
模型训练方法 服务端 客户端 多通道 框架
5
基于隐式识别与Flood Fill算法的多核CPU并行加速参数化水平集热传导拓扑优化方法
拓扑优化方法 热传导 水平集函数 控制拓扑结构 格式三维模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号