摘要
本申请公开了一种音频编码方法、装置、电子设备及可读存储介质,属于人工智能技术领域,该方法包括:提取第一音频的第一梅尔频谱特征;将所述第一梅尔频谱特征划分为N个不同频率范围的子带,得到N个子带特征;其中,所述N个不同频率范围之间互不重叠;对每个所述子带特征进行量化编码,得到每个所述子带特征的量化编码值;根据预设量化码表和每个所述子带特征的量化编码值,确定每个所述子带特征的索引值;其中,所述量化码表包含量化编码值与索引值之间的映射关系,所述索引值为整数,N个所述子带特征的索引值构成所述第一音频对应的一组训练数据,所述训练数据用于训练文生语音模型。
技术关键词
频谱特征
音频编码方法
编码器
编码结构
生成对抗网络
残差模块
索引
码表
双曲正切函数
子模块
解码结构
编码模块
电子设备
可读存储介质
频率
人工智能技术