摘要
本发明提供一种语音识别方法、装置、系统、电子设备和存储介质,其中方法应用于终端设备,包括:基于语音信号的语种信息,对语音信号进行声学特征提取,得到声学特征,并对声学特征进行解码,得到语音信号的多个初始识别结果;确定语音信号的语音识别结果;语音识别结果是在各初始识别结果、声学特征和语种信息的基础上,应用语音识别模型进行语义纠错得到的;语音识别模型是在大型语言模型的基础上构建的,克服了目前多语种语音识别准确率低,易误判的缺陷,通过两步式的识别流程,先在本地快速生成多个初始识别结果,再利用大模型强大的语义理解能力,并融合声学特征和语种信息进行多模态的深度纠错,从而极大地提升了多语种语音识别的准确率。
技术关键词
语音识别模型
语音识别方法
云端服务器
语义特征
音频
终端设备
置信度阈值
样本
上下文特征
信号
纠错
文本
多语种语音
适配器
编码器
语音识别装置
融合声学特征
系统为您推荐了相关专利信息
评论生成方法
注意力模型
生成模板
卷积神经网络模型
词嵌入技术
图像识别模型
图像分类模型
模糊边界
天气
注意力机制
图像序列数据
表面缺陷检测方法
混合辐射场
缺陷类别
颜色