基于Conformer神经网络的方言语音识别方法及系统

正文

推荐专利

申请号：CN202510523797

申请日期：2025-04-24

公开号：CN120472882A

公开日期：2025-08-12

类型：发明专利

摘要

本发明提供了一种基于Conformer神经网络的方言语音识别方法及系统，该方法包括：对输入的方言语音数据进行预处理，得到Fbank特征；对Fbank特征进行数据增强；将增强的Fbank特征进行归一化处理、特征维度转换和位置编码，并输入到Conformer编码器中；Conformer编码器通过多个Conformer编码器层提取声学特征，并进行归一化处理，提取出用于解码器的特征信息；提取的特征信息通过双向解码器结构处理并归一化，双向解码器结构包括双向解码器、CTC解码分支与注意力解码分支；将CTC解码分支与注意力解码分支的输出特征进行加权融合，得到最终预测结果；将预测结果通过贪婪解码器处理，得到最佳文本。本发明不仅考虑了方言语音的局部特征的有效利用，并且考虑了其基于内容的全局交互，达到了更出色的方言识别效果。

技术关键词

方言语音识别方法注意力解码编码器解码器结构输出特征声学特征分支卷积模块位置编码信息语音识别系统文本前馈神经网络序列数据

系统为您推荐了相关专利信息

一种结直肠癌转移预测方法、系统及存储介质

转移预测方法电子健康记录直肠癌语言编码器医学影像数据

一种基于时空双流掩码重建的微表情识别预训练方法

预训练方法注意力序列编码器训练预训练模型

一种医疗图像报告生成方法

图像特征向量文本特征向量解码模块报告生成方法样本

基于深度学习的田间麦穗检测方法

跨尺度特征融合混合编码器注意力特征提取网络解码结构

在线地图生成模型训练方法、在线地图生成方法、装置及电子设备、存储介质

生成模型训练方法在线地图生成方法解码器编码器

基于Conformer神经网络的方言语音识别方法及系统

站点导航

APP 下载