摘要
本发明提供一种音频识别方法、系统、电子设备及存储介质,该方法包括:将单一通道的待识别音频的声学特征输入至音频识别模型中的转换点检测器,得到待识别音频中的说话人转换点对应的时间戳向量;将声学特征和说话人转换点对应的时间戳向量输入至音频识别模型中的片段检测器,得到待识别音频中单一说话人的音频片段和多个说话人的重叠音频片段;根据单一说话人的音频片段对应的声纹特征和多个说话人的重叠音频片段对应的声纹特征,确定输入信息,并将输入信息输入至音频识别模型中的估计器,得到待识别音频中的说话人数目。本发明实现在保障说话人数目估计的准确性的同时,降低配置成本,提高音频识别的适应性。
技术关键词
音频识别方法
说话人数目
声纹特征
声学特征
训练识别模型
编码器
样本
检测器
非暂态计算机可读存储介质
音频识别系统
残差网络
标签
分阶段
电子设备
处理器
通道
数据