摘要
本发明涉及语音处理技术领域,可应用于医疗健康、金融科技及通信等业务系统平台中,公开了一种音频压缩与重建方法、装置、设备及介质,包括:通过修正离散余弦变换提取时频域特征,利用轻量级卷积神经网络提取关键频谱信息,并进行残差矢量量化与反量化处理,生成基础频谱特征;采用频谱扩展网络补偿高频成分,结合长短期记忆网络预测时域误差,生成时域残差补偿信号,并与重构时域音频信号叠加,得到目标音频信号。本发明通过残差矢量量化和神经网络建模,提高低比特率压缩下的音频重建质量,优化频谱细节保留和时域误差补偿,同时降低计算复杂度,适用于高采样率和资源受限场景。
技术关键词
时域音频信号
频谱特征
轻量级卷积神经网络
长短期记忆网络
矢量量化
压缩特征
频域特征
预测特征
重构
误差预测
深度卷积特征
索引
修正离散余弦变换
上下文特征
生成时域信号
基础