摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于噪声感知的语音增强方法、装置、设备及介质,包括:获取目标音频及其环境音频数据与多模态传感器数据,提取环境特征信息并输入音频增强模型生成增强音频信号;获取参考音频样本提取个性化特征向量,对增强音频信号进行个性化处理;采集播放反馈数据,确定播放时域调整参数与播放频域调整参数,调整个性化增强音频信号,生成优化音频信号。本发明通过融合环境感知信息与个性化说话人特征,在播放过程中结合反馈参数实现动态调整,能够在复杂环境下生成清晰、自然且具有个性化风格的优化音频输出,提升语音交互的质量与适应能力。
技术关键词
音频
多模态传感器
语音
特征提取模块
调制特征
数据
设备运动状态
信号
面部表情特征
分布特征
参数
频谱特征
节奏特征
噪声频谱
噪声特征
定位特征
样本
麦克风阵列采集