摘要
本申请涉及一种语音识别模型训练方法、装置和计算机设备。所述方法包括:获取待标注音频文件集中每个待标注音频文件的多个第一识别结果;多个所述第一识别结果由多个语音识别模型对所述待标注音频文件进行语音识别得到;通过每个所述待标注音频文件的多个所述第一识别结果,对相应的所述待标注音频文件进行自动标注处理,确定每个所述待标注音频文件的标注结果和结果置信度;所述自动标注处理包括投票验证和片段验证;整合每个所述待标注音频文件以及对应的标注结果和结果置信度,生成标注数据集;根据所述标注数据集,对预设语音识别算法进行训练,得到目标语音识别模型。采用本方法能够降低训练成本和提高模型准确率。
技术关键词
生成音频文件
语音识别模型
语音识别算法
文本处理算法
语音生成模型
计算机设备
数据线
字符
队列
训练装置
处理器
可读存储介质
模块
存储器