可变比特率的去冗余语音语义编码方法及装置

正文

推荐专利

申请号：CN202410954521

申请日期：2024-07-16

公开号：CN119132314B

公开日期：2025-09-02

类型：发明专利

摘要

本发明涉及语音编码技术领域，特别涉及一种可变比特率的去冗余语音语义编码方法及装置，其中，方法包括：基于预设深度神经网络模型，获取目标说话人的原音频；提取原音频中语言学离散语义表示，并获取原音频的声纹特征和压缩频谱特征；将语言学离散语义表示、声纹特征和压缩频谱特征分别进行重建处理，得到目标音频声学中间表示，并利用目标音频声学中间表示得到要输出的目标音频，以对原音频进行去冗余语音语义编码。由此，解决了相关技术中的声音合成模型为固定参数的预训练模型，难以根据不同说话人更改恢复语音中的说话人特征，导致部分语音信息失真，降低了语音识别的质量和效率，并且降低了语音恢复的准确性的问题。

技术关键词

语义编码方法频谱特征声纹特征音频深度神经网络模型冗余滤波器语音编码技术处理器声学特征计算机程序产品模块可读存储介质波形信号存储器电子设备

可变比特率的去冗余语音语义编码方法及装置

站点导航

APP 下载