摘要
本发明涉及语音处理技术领域,可应用于金融科技、医疗健康等业务场景中,公开了一种语音特征处理方法、装置、设备及介质,包括:对原始音频信号执行频率分辨率调整生成融合梅尔频带能量,基于融合梅尔频带能量执行时间分辨率分析生成多尺度梅尔谱幅度值,根据噪声强度参数对多尺度梅尔谱幅度值进行非线性变换生成噪声抑制梅尔分量,根据听觉感知模型生成感知加权系数对噪声抑制梅尔分量执行频域能量调整生成梅尔谱图表示。本发明通过在频率分辨率自适应、时间分辨率动态调整和听觉感知建模的基础上,对多尺度梅尔谱幅度值应用非线性变换与感知加权处理,能够有效降低噪声干扰对语音特征的影响,增强语音信号的关键信息保留能力。
技术关键词
语音特征
听觉感知模型
生成多尺度
生成噪声
分辨率
噪声强度
非线性
信号噪声比
卷积神经网络模块
噪声抑制模块
背景噪声
频率
声码器
音频采集模块
低频段
系统为您推荐了相关专利信息
被动微波遥感
微波遥感影像
空间降尺度
平均叶倾角
图像
线路设计方法
拓扑绝缘体
三维光子晶体结构
微光
基片
特征提取单元
生成对抗网络
计算机可执行指令
分布特征
反射率数据
三维风场反演方法
地面气象站
风廓线雷达
数据
模拟风场
器官分割方法
高层语义特征
卷积模块
编码器特征
解码器架构