摘要
本发明涉及一种基于非自回归网络的transformers的方言语音识别方法,包括方言语音识别,方言语音识别模型主要由特征编码,位置编码,encoder,decoder,非自回归网络组成,特征编码主要负责将语音信息转为模型能理解的数字编码信息,位置编码将语音帧的位置作特定的三角函数编码,使得模型能理解语音的时序特征,编码器Encoder与解码器Decoder用于提取并理解语音所包含的语义信号,非自回归网络解决上下文理解与方言错字的匹配。本发明提出的贵州方言语音识别技术在贵州方言上有较低的错误率和较快的识别速率,并且在不需要更改模型的基础上能快速适配其它方言的语音识别。
技术关键词
方言语音识别方法
语音识别模型
时序特征
位置编码信息
注意力机制
语音识别技术
前馈神经网络
发音系统
数据
上下文特征
抽头
信号
矩阵
梯度下降法
语音编码
解码器
声学特征
系统为您推荐了相关专利信息
故障检测模型
注意力机制
全局信息融合
网络
图像
状态检测系统
处理单元
图像识别模型
检验单元
实例分割
手部姿态估计方法
关节点
补丁
视觉特征
位置编码方法