摘要
一种基于非自回归方式的流式同步语音识别方法,属于语音识别技术领域。具体包括以下步骤:1、将待训练的语音数据序列X输入至基于块注意力机制的编码器生成高维特征向量Z;2、将Z通过连接主义时间分类算法进行贪婪解码输出高维特征向量π;3、通过动态映射算法恢复语音信号块之间的块边界的错误输出4、将π输入至单词推理器获取语音中的单词间、字母间的联系输出高维特征向量π’;5、将π’中的标记随机选择并替换为特殊的<mask>标记后输入至语言模型解码器进行进一步解码的输出向量与连接主义时间分类算法输出的向量合并后生成最终的输出向量W。
技术关键词
语音识别方法
高维特征向量
注意力机制
映射算法
编码器
标记
语音识别方式
字母
解码器
语音识别技术
前馈神经网络
矩阵
索引
动态
序列
分块