摘要
本公开涉及多时间分辨率音频处理的方法与系统。本公开的各方面提供一种用于语音控制的方法,包括使用应用于跨多通道音频流的每个输入通道对齐的每个窗口中的数据的短时傅里叶变换(STFT),将多通道音频流变换为复值频域表示。对于当前窗口,该方法还包括:更新与缓慢自适应波束形成器相对应的第一复值协方差矩阵,并为STFT中的每个频带形成单通道去噪估计;通过将所述单通道去噪估计的幅度与所述多通道音频流的每个输入通道的幅度进行比较,计算STFT中每个频带的语音活动检测(VAD)估计;和响应于分别指示语音存在或不存在的VAD估计,选择性地更新或不更新与快速自适应波束形成器对应的第二复值协方差矩阵。
技术关键词
语音用户界面
多通道
协方差矩阵
语音活动检测
短时傅里叶变换
音频
非瞬态计算机可读介质
自动语音识别系统
自动语音识别技术
计算机程序产品
波束成形
语音控制系统
处理器
麦克风阵列
缓冲器
指令
背景噪声