摘要
本申请涉及一种说话人语音识别方法,涉及电话语音信号处理技术领域。所述方法包括:实时获取待识别通话音频,并将所述待识别通话音频切分为若干音频块;针对每个所述音频块,提取该音频块的语音特征,并输入至预先训练的说话人语音识别模型中;通过所述说话人语音识别模型输出该音频块属于目标说话人的归属概率;如果该音频块属于目标说话人的归属概率大于预设的说话人归属概率阈值,则判定所述音频块属于目标说话人。采用本申请可以实现复杂场景下的目标说话人识别。
技术关键词
音频块
说话人语音识别
语音活动检测
语音特征
语音识别方法
特征加权融合
编码器模块
语音信号处理技术
多任务损失函数
引入注意力机制
说话人识别
输出模块
声学特征
人声
发声
电话