摘要
本发明提供了一种基于Conformer神经网络的方言语音识别方法及系统,该方法包括:对输入的方言语音数据进行预处理,得到Fbank特征;对Fbank特征进行数据增强;将增强的Fbank特征进行归一化处理、特征维度转换和位置编码,并输入到Conformer编码器中;Conformer编码器通过多个Conformer编码器层提取声学特征,并进行归一化处理,提取出用于解码器的特征信息;提取的特征信息通过双向解码器结构处理并归一化,双向解码器结构包括双向解码器、CTC解码分支与注意力解码分支;将CTC解码分支与注意力解码分支的输出特征进行加权融合,得到最终预测结果;将预测结果通过贪婪解码器处理,得到最佳文本。本发明不仅考虑了方言语音的局部特征的有效利用,并且考虑了其基于内容的全局交互,达到了更出色的方言识别效果。
技术关键词
方言语音识别方法
注意力解码
编码器
解码器结构
输出特征
声学特征
分支
卷积模块
位置编码信息
语音识别系统
文本
前馈神经网络
序列
数据
系统为您推荐了相关专利信息
转移预测方法
电子健康记录
直肠癌
语言编码器
医学影像数据
图像特征向量
文本特征向量
解码模块
报告生成方法
样本
跨尺度特征融合
混合编码器
注意力
特征提取网络
解码结构
生成模型训练方法
在线
地图生成方法
解码器
编码器