一种端到端可变压缩比的语音压缩方法

AITNT
正文
推荐专利
一种端到端可变压缩比的语音压缩方法
申请号:CN202510644689
申请日期:2025-05-20
公开号:CN120164473A
公开日期:2025-06-17
类型:发明专利
摘要
本发明属于语音压缩技术领域,公开了一种端到端可变压缩比的语音压缩方法,该方法以SoundStream模型为基线,并基于语音信号的谐波特性,引入多周期判别器和多尺度判别器构建‌生成对抗网络模型,通过在时域内对语音信号进行多种周期和多尺度的特征提取,真正实现端到端的信号处理。该方法还引入STFT频谱损失作为重建损失的主要参数,并通过引入码本损失提高码本的利用率,其在训练过程中引入平衡训练策略,使利用率高的码本获得更多的训练权重,在推理过程中引入码本选择策略,根据输入语音时长分配合适的带宽,通过训练一个模型实现多种码率的自适应调节,避免了语音压缩过程中大时长语音的码率不足和小时长语音的码率冗余问题。
技术关键词
语音压缩方法 生成对抗网络模型 通道 生成语音信号 编码器 周期 码率 上采样 语音压缩技术 解码器 切片 量化器 编码块 策略 输入多尺度 采样率
系统为您推荐了相关专利信息
1
一种基于FT-Transformer的银行信用预测方法及系统
矩阵 编码向量 数值 令牌 前馈神经网络
2
一种基于知识记忆的增强式跨文档智能检索方法及系统
智能检索方法 三元组 语义 图谱 大语言模型
3
一种可交互式的珠宝设计方法、装置及介质
三维设计模型 珠宝模型 生成对抗网络模型 装饰特征 风格
4
电子设备
嵌入式控制器模块 功能模组 电源管理组件 固态硬盘模块 显示屏电源管理
5
基于声纹识别的AI陪伴机器人语音合成方法及系统
陪伴机器人 情绪特征 个性化语音 情绪状态识别 身份
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号