可变比特率的去冗余语音语义编码方法及装置

AITNT
正文
推荐专利
可变比特率的去冗余语音语义编码方法及装置
申请号:CN202410954521
申请日期:2024-07-16
公开号:CN119132314B
公开日期:2025-09-02
类型:发明专利
摘要
本发明涉及语音编码技术领域,特别涉及一种可变比特率的去冗余语音语义编码方法及装置,其中,方法包括:基于预设深度神经网络模型,获取目标说话人的原音频;提取原音频中语言学离散语义表示,并获取原音频的声纹特征和压缩频谱特征;将语言学离散语义表示、声纹特征和压缩频谱特征分别进行重建处理,得到目标音频声学中间表示,并利用目标音频声学中间表示得到要输出的目标音频,以对原音频进行去冗余语音语义编码。由此,解决了相关技术中的声音合成模型为固定参数的预训练模型,难以根据不同说话人更改恢复语音中的说话人特征,导致部分语音信息失真,降低了语音识别的质量和效率,并且降低了语音恢复的准确性的问题。
技术关键词
语义编码方法 频谱特征 声纹特征 音频 深度神经网络模型 冗余 滤波器 语音编码技术 处理器 声学特征 计算机程序产品 模块 可读存储介质 波形 信号 存储器 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号