摘要
本申请提供了一种语种识别方法、装置、电子设备及存储介质,所述语种识别方法包括:获取待识别音频;将待识别音频输入至语种识别模型之中进行音频特征提取,对所述音频特征进行语种编码处理和音素编码处理生成音频段级别的音位嵌入向量序列,对所述音位嵌入向量序列进行特征编码处理、句子级别统计处理以及线性投影处理,输出所述待识别音频的语种类别;其中,所述语种识别模型是通过对神经网络模型进行自监督音素分割任务以及语种识别任务联合训练得到的。通过音素分割任务和语种识别任务的联合训练得到的语种识别模型,有效提高了音频的语种识别的准确性。
技术关键词
语种识别方法
神经网络模型
音频特征提取
样本
序列
机器可读指令
线性
识别模块
电子设备
多头注意力机制
处理器
可读存储介质
编码器
输出特征
存储器
系统为您推荐了相关专利信息
智能评价方法
非线性
多层感知网络
样本
多维特征向量
传输优化方法
激光切割机
光束
工件
PID控制器
页面异常检测方法
元素
页面数据
视觉
保护用户隐私