摘要
本申请公开了一种目标说话人抽取方法、语音交互方法、装置、相关设备及计算机程序产品,本申请在对多通道原始语音信号进行语音分离的基础上,利用唤醒模型对每个区的分离语音信号进行唤醒识别,得到目标区的分离语音信号中的唤醒端点信息,进而针对该唤醒端点之间的语音信号提取目标说话人的属性信息,示例声纹信息、空间位置信息等,通过目标说话人抽取模型基于该属性信息及唤醒段的语音信号,估计得到目标说话人相关的语音信号。本申将唤醒阶段估计的目标说话人的属性信息作为参考信息,应用在识别阶段,可以有效减少现有方案的失真,提升了抽取的语音信号质量,进而有助于提高后续语音交互的成功率。
技术关键词
语音交互方法
多通道
端点
短时傅里叶变换
波束
交互动作
计算机程序产品
语音信号提取
语音交互装置
语音识别单元
麦克风
抽取装置
处理器
分区
可读存储介质
存储器
阶段
电子设备