摘要
本发明属于语音压缩技术领域,公开了一种端到端可变压缩比的语音压缩方法,该方法以SoundStream模型为基线,并基于语音信号的谐波特性,引入多周期判别器和多尺度判别器构建生成对抗网络模型,通过在时域内对语音信号进行多种周期和多尺度的特征提取,真正实现端到端的信号处理。该方法还引入STFT频谱损失作为重建损失的主要参数,并通过引入码本损失提高码本的利用率,其在训练过程中引入平衡训练策略,使利用率高的码本获得更多的训练权重,在推理过程中引入码本选择策略,根据输入语音时长分配合适的带宽,通过训练一个模型实现多种码率的自适应调节,避免了语音压缩过程中大时长语音的码率不足和小时长语音的码率冗余问题。
技术关键词
语音压缩方法
生成对抗网络模型
通道
生成语音信号
编码器
周期
码率
上采样
语音压缩技术
解码器
切片
量化器
编码块
策略
输入多尺度
采样率
系统为您推荐了相关专利信息
三维设计模型
珠宝模型
生成对抗网络模型
装饰特征
风格
嵌入式控制器模块
功能模组
电源管理组件
固态硬盘模块
显示屏电源管理
陪伴机器人
情绪特征
个性化语音
情绪状态识别
身份