摘要
本发明公开了基于特征差异集成的非自回归语音识别方法,包括:步骤1,收集音频数据转为wav格式并标注,划分为训练集、验证集和测试集;步骤2,对数据集中音频文件进行预处理操作;步骤3,统计训练集中的文本数据,通过统计词频、排序、去重后形成token列表;步骤4,构建语音识别模型FDI;步骤5,使用训练集对步骤4构建的FDI模型进行训练,使用验证集评估模型的性能变化,得到语音识别模型;步骤6,使用测试集评估模型的性能。本发明更直观的从音频数据中学习音频和文字的对齐,并减少了环境噪音、停顿等情况下对语音识别的影响。
技术关键词
语音识别方法
构建语音识别模型
音频
编码器
数据
语音识别准确率
频谱特征
多头注意力机制
解码器
文本
列表
训练集
声学特征
标记
标签