多时间分辨率音频处理的方法与系统

正文

推荐专利

多时间分辨率音频处理的方法与系统

申请号：CN202411117185

申请日期：2024-08-15

公开号：CN119495314A

公开日期：2025-02-21

类型：发明专利

摘要

本公开涉及多时间分辨率音频处理的方法与系统。本公开的各方面提供一种用于语音控制的方法，包括使用应用于跨多通道音频流的每个输入通道对齐的每个窗口中的数据的短时傅里叶变换(STFT)，将多通道音频流变换为复值频域表示。对于当前窗口，该方法还包括：更新与缓慢自适应波束形成器相对应的第一复值协方差矩阵，并为STFT中的每个频带形成单通道去噪估计；通过将所述单通道去噪估计的幅度与所述多通道音频流的每个输入通道的幅度进行比较，计算STFT中每个频带的语音活动检测(VAD)估计；和响应于分别指示语音存在或不存在的VAD估计，选择性地更新或不更新与快速自适应波束形成器对应的第二复值协方差矩阵。

技术关键词

语音用户界面多通道协方差矩阵语音活动检测短时傅里叶变换音频非瞬态计算机可读介质自动语音识别系统自动语音识别技术计算机程序产品波束成形语音控制系统处理器麦克风阵列缓冲器指令背景噪声

多时间分辨率音频处理的方法与系统

站点导航

APP 下载