摘要
本发明涉及语音处理技术领域,可应用于金融科技、医疗健康等业务场景中,公开了一种语音特征处理方法、装置、设备及介质,包括:对原始音频信号执行频率分辨率调整生成融合梅尔频带能量,基于融合梅尔频带能量执行时间分辨率分析生成多尺度梅尔谱幅度值,根据噪声强度参数对多尺度梅尔谱幅度值进行非线性变换生成噪声抑制梅尔分量,根据听觉感知模型生成感知加权系数对噪声抑制梅尔分量执行频域能量调整生成梅尔谱图表示。本发明通过在频率分辨率自适应、时间分辨率动态调整和听觉感知建模的基础上,对多尺度梅尔谱幅度值应用非线性变换与感知加权处理,能够有效降低噪声干扰对语音特征的影响,增强语音信号的关键信息保留能力。
技术关键词
语音特征
听觉感知模型
生成多尺度
生成噪声
分辨率
噪声强度
非线性
信号噪声比
卷积神经网络模块
噪声抑制模块
背景噪声
频率
声码器
音频采集模块
低频段
系统为您推荐了相关专利信息
采样模块
复原方法
特征提取模块
重建误差
上采样
语音特征
神经网络模型构建
声码器
文本编码器
音频
诊断辅助系统
融合视觉
图像特征提取
关键点
注意力机制
地形建模方法
多分辨率
格网模型
离散点云数据
网格
智能监测系统
多模态数据管理
无人机
多源异构数据
多层级特征