摘要
本发明属于语音识别领域,具体涉及一种基于注意力增强的端到端语音识别方法、程序产品和设备。该方法基于改进Transformer构建包含编码器和解码器的语音识别网络,编码器包括下采样模块和多个特征提取单元,特征提取单元由1个RWKV层和2个E‑Branchformer层构成;RWKV层中包括cgMLP分支和GroupBiRWKV分支,二者用于提取输入特征的局部上下文声学信息和全局声学特征。解码器中包含多个循环设置的Transformer解码器层和RWKV解码器层;RWKV解码器层包括前馈模块、RWKV层和交叉注意力模块;编码器的输出作为两种解码器层中的交叉注意力模块的输入。采集真实的语音信号将其预处理用于对语音识别网络进行训练;并利用训练出的网络模型执行语音识别任务。本发明解决了现有方案的识别效率和精度不足的问题。
技术关键词
语音识别方法
注意力
语音识别网络
解码器
声学特征
特征提取单元
联合损失函数
编码器
执行语音识别
采样模块
序列
分支
通道
梯度下降法
混合模块
线性单元
标签
计算机程序产品
系统为您推荐了相关专利信息
图片特征信息
数据融合方法
多模态特征
切片
多模态数据融合
深度强化学习模型
时序特征
决策方法
生成对抗网络
智慧能源技术
光伏电站
组合深度
多模态
数值天气预报数据
气象
心理状态检测
车辆座舱
卷积模块
车辆控制方法
线性单元