一种端到端可变压缩比的语音压缩方法

正文

推荐专利

一种端到端可变压缩比的语音压缩方法

申请号：CN202510644689

申请日期：2025-05-20

公开号：CN120164473A

公开日期：2025-06-17

类型：发明专利

摘要

本发明属于语音压缩技术领域，公开了一种端到端可变压缩比的语音压缩方法，该方法以SoundStream模型为基线，并基于语音信号的谐波特性，引入多周期判别器和多尺度判别器构建‌生成对抗网络模型，通过在时域内对语音信号进行多种周期和多尺度的特征提取，真正实现端到端的信号处理。该方法还引入STFT频谱损失作为重建损失的主要参数，并通过引入码本损失提高码本的利用率，其在训练过程中引入平衡训练策略，使利用率高的码本获得更多的训练权重，在推理过程中引入码本选择策略，根据输入语音时长分配合适的带宽，通过训练一个模型实现多种码率的自适应调节，避免了语音压缩过程中大时长语音的码率不足和小时长语音的码率冗余问题。

技术关键词

语音压缩方法生成对抗网络模型通道生成语音信号编码器周期码率上采样语音压缩技术解码器切片量化器编码块策略输入多尺度采样率

系统为您推荐了相关专利信息

一种基于FT-Transformer的银行信用预测方法及系统

矩阵编码向量数值令牌前馈神经网络

一种基于知识记忆的增强式跨文档智能检索方法及系统

智能检索方法三元组语义图谱大语言模型

一种可交互式的珠宝设计方法、装置及介质

三维设计模型珠宝模型生成对抗网络模型装饰特征风格

电子设备

嵌入式控制器模块功能模组电源管理组件固态硬盘模块显示屏电源管理

基于声纹识别的AI陪伴机器人语音合成方法及系统

陪伴机器人情绪特征个性化语音情绪状态识别身份

一种端到端可变压缩比的语音压缩方法

站点导航

APP 下载