摘要
本发明涉及语音编码技术领域,特别涉及一种可变比特率的去冗余语音语义编码方法及装置,其中,方法包括:基于预设深度神经网络模型,获取目标说话人的原音频;提取原音频中语言学离散语义表示,并获取原音频的声纹特征和压缩频谱特征;将语言学离散语义表示、声纹特征和压缩频谱特征分别进行重建处理,得到目标音频声学中间表示,并利用目标音频声学中间表示得到要输出的目标音频,以对原音频进行去冗余语音语义编码。由此,解决了相关技术中的声音合成模型为固定参数的预训练模型,难以根据不同说话人更改恢复语音中的说话人特征,导致部分语音信息失真,降低了语音识别的质量和效率,并且降低了语音恢复的准确性的问题。
技术关键词
语义编码方法
频谱特征
声纹特征
音频
深度神经网络模型
冗余
滤波器
语音编码技术
处理器
声学特征
计算机程序产品
模块
可读存储介质
波形
信号
存储器
电子设备