基于注意力增强的端到端语音识别方法、程序产品和设备

正文

推荐专利

申请号：CN202510327681

申请日期：2025-03-19

公开号：CN120183388A

公开日期：2025-06-20

类型：发明专利

摘要

本发明属于语音识别领域，具体涉及一种基于注意力增强的端到端语音识别方法、程序产品和设备。该方法基于改进Transformer构建包含编码器和解码器的语音识别网络，编码器包括下采样模块和多个特征提取单元，特征提取单元由1个RWKV层和2个E‑Branchformer层构成；RWKV层中包括cgMLP分支和GroupBiRWKV分支，二者用于提取输入特征的局部上下文声学信息和全局声学特征。解码器中包含多个循环设置的Transformer解码器层和RWKV解码器层；RWKV解码器层包括前馈模块、RWKV层和交叉注意力模块；编码器的输出作为两种解码器层中的交叉注意力模块的输入。采集真实的语音信号将其预处理用于对语音识别网络进行训练；并利用训练出的网络模型执行语音识别任务。本发明解决了现有方案的识别效率和精度不足的问题。

技术关键词

语音识别方法注意力语音识别网络解码器声学特征特征提取单元联合损失函数编码器执行语音识别采样模块序列分支通道梯度下降法混合模块线性单元标签计算机程序产品

系统为您推荐了相关专利信息

一种多模态数据融合方法、装置、设备及存储介质

图片特征信息数据融合方法多模态特征切片多模态数据融合

基于时序特征融合与边际效益优化的光伏清洁决策方法及系统

深度强化学习模型时序特征决策方法生成对抗网络智慧能源技术

基于高光谱图像的稻种活力检测方法及系统

活力检测方法量子态箱子局部特征提取特征值

海上光伏短期功率预测方法、装置、设备、介质及产品

光伏电站组合深度多模态数值天气预报数据气象

车辆控制方法、电子设备、车辆、介质及产品

心理状态检测车辆座舱卷积模块车辆控制方法线性单元

基于注意力增强的端到端语音识别方法、程序产品和设备

站点导航

APP 下载