摘要
本申请涉及一种端到端基于多层信息融合的方言音频识别方法、系统、电子设备及计算机可读介质。该方法包括:将方言音频进行音频预处理,生成声学特征;将所述声学特征输入到编码器中,所述编码器对其进行渐进式降采样操作,生成多层细粒度声学特征;通过层适应模块对所述多层细粒度声学特征进行多层信息融合,生成融合声学特征;通过交叉注意力机制对所述融合声学特征进行交叉融合,生成修正声学特征;将所述修正声学特征输入到端到端方言识别模型中,生成方言音频识别结果。本申请能够对复杂语音信号和多口音特征进行高效捕捉和处理、还能够在线实时进行方言音频的分类及解码,提高了语音识别的准确性和鲁棒性。
技术关键词
融合声学特征
交叉注意力机制
语音识别模型
编码器
音频识别方法
多任务
音频识别系统
信息融合机制
梅尔倒谱系数
解码器
框架
处理器
模块
标签
计算机程序产品
文本识别
系统为您推荐了相关专利信息
锁频系统
深度学习模型
参数调控方法
数字PID控制器
联合损失函数
瞳孔中心定位方法
热力图
坐标
图像分割网络
瞳孔中心定位装置
辅助分析方法
智能辅助分析系统
电力设备管理
大语言模型
仓库
多模态信息
深度图像数据
表面粗糙度检测
彩色图像数据
激光对射传感器