摘要
本申请涉及语音处理技术领域,公开了一种基于AI的实时音频合成方法、装置、系统及声码器,其方法包括:基于MelGAN网络,将原生成器替换为用于学习多层次声学特征的多层次波形生成器,在每层上采样层后增加残差融合层,构建初始AI声码器模型;其中,任一上采样层及其末端连接的残差融合层构成多层次残差融合模块,多层次残差融合模块用于确保每次上采样层的输入特征均包含以前的音频特征和实时推理;对初始AI声码器模型进行迭代训练,得到目标AI声码器模型输出;获取待合成音频的Mel频谱图,输入目标AI声码器模型中,得到目标音频。本申请具有改善语音合成的实时性,语音内容的正确性能得到保障的效果。
技术关键词
音频特征
多层次
上采样
声学特征
声码器系统
语音
数据传输单元
模型训练模块
波形
终端单元
输出特征
采集单元
计算机设备
通道
网络
存储器
标签