摘要
本申请公开了一种语音识别方法及相关装置、设备和存储介质,语音识别方法包括:获取当前轮次的第一解码特征;其中,当前轮次的第一解码特征包含上一轮次所输出解码字符的特征信息;获取待识别语音中各个语音帧的编码特征分别与第一解码特征之间的对齐概率,并基于对齐概率选择至少部分语音帧的编码特征与第一解码特征进行融合,得到第二解码特征;基于第二解码特征进行解码,得到当前轮次所输出的解码字符,并返回获取当前轮次的第一解码特征的步骤进行迭代,直至最新输出的解码字符表征语音识别结束为止,基于各个轮次的解码字符,得到待识别语音的识别文本。上述方案,能够提升语音识别的效率和准确性,特别是流式语音识别的效率和准确性。
技术关键词
语音识别模型
编码特征
样本
解码网络
语音识别方法
多头注意力机制
文本
字符
语音识别装置
网络结构
解码模块
滑动窗口
基准
处理器
输入端
系统为您推荐了相关专利信息
蒸汽输送管路
健康监测方法
泄漏监测设备
时间段
频谱特征
水下推进器
故障诊断方法
速度预测模型
故障分类模型
故障特征
数据校正方法
运动噪声
BP神经网络模型
电磁
平滑滤波方法
编码特征
编码模块
预训练网络
图像增强模型
层级
神经网络模型
语音特征
特征提取方式
融合特征
背景噪声