摘要
本申请公开一种多语言语音识别方法,多语言语音识别模型包括:编码器、语种分类模型、CTC模块和解码器;所述方法包括:获取待识别音频的声学特征输入至所述编码器得到包含了声学特征局部信息和声学特征全局信息的编码器输出结果;语种分类模型对所述编码器输出结果进行预设处理得到语种分类结果;CTC模块结合加权有限状态转换机,通过前缀束搜索算法将编码器输出结果映射到流式nbest识别结果;解码器根据流式nbest识别结果对编码器输出结果进行重打分。本申请多语言语音识别模型仅共享了底层的编码器,顶层的语种分类模型、CTC模块和解码器独立。通过共享的底层参数和重打分流程减少语音识别的混淆不同语种的同音字问题,并提升语种分类准确度。
技术关键词
多语言语音识别
声学特征
编码器
注意力
解码器
卷积模块
网络模块
转换机
搜索算法
指令
计算机程序产品
音频
电子设备
处理器通信
可读存储介质
存储器
系统为您推荐了相关专利信息
回声消除算法
对齐模块
降噪模型
状态检测功能
交叉注意力机制
萤火虫算法优化
网络物流
灰色系统模型
灰色关联分析方法
注意力机制
患者康复训练
康复训练方法
训练特征
动作检测模型
医疗知识图谱