音频识别方法、系统、电子设备及存储介质

正文

推荐专利

音频识别方法、系统、电子设备及存储介质

申请号：CN202411542639

申请日期：2024-10-31

公开号：CN119296546A

公开日期：2025-01-10

类型：发明专利

摘要

本发明提供一种音频识别方法、系统、电子设备及存储介质，该方法包括：将单一通道的待识别音频的声学特征输入至音频识别模型中的转换点检测器，得到待识别音频中的说话人转换点对应的时间戳向量；将声学特征和说话人转换点对应的时间戳向量输入至音频识别模型中的片段检测器，得到待识别音频中单一说话人的音频片段和多个说话人的重叠音频片段；根据单一说话人的音频片段对应的声纹特征和多个说话人的重叠音频片段对应的声纹特征，确定输入信息，并将输入信息输入至音频识别模型中的估计器，得到待识别音频中的说话人数目。本发明实现在保障说话人数目估计的准确性的同时，降低配置成本，提高音频识别的适应性。

技术关键词

音频识别方法说话人数目声纹特征声学特征训练识别模型编码器样本检测器非暂态计算机可读存储介质音频识别系统残差网络标签分阶段电子设备处理器通道数据

音频识别方法、系统、电子设备及存储介质

站点导航

APP 下载