一种基于AI的实时音频合成方法、装置、系统及声码器

正文

推荐专利

申请号：CN202510162618

申请日期：2025-02-14

公开号：CN120071888A

公开日期：2025-05-30

类型：发明专利

摘要

本申请涉及语音处理技术领域，公开了一种基于AI的实时音频合成方法、装置、系统及声码器，其方法包括：基于MelGAN网络，将原生成器替换为用于学习多层次声学特征的多层次波形生成器，在每层上采样层后增加残差融合层，构建初始AI声码器模型；其中，任一上采样层及其末端连接的残差融合层构成多层次残差融合模块，多层次残差融合模块用于确保每次上采样层的输入特征均包含以前的音频特征和实时推理；对初始AI声码器模型进行迭代训练，得到目标AI声码器模型输出；获取待合成音频的Mel频谱图，输入目标AI声码器模型中，得到目标音频。本申请具有改善语音合成的实时性，语音内容的正确性能得到保障的效果。

技术关键词

音频特征多层次上采样声学特征声码器系统语音数据传输单元模型训练模块波形终端单元输出特征采集单元计算机设备通道网络存储器标签

一种基于AI的实时音频合成方法、装置、系统及声码器

站点导航

APP 下载