一种端到端基于多层信息融合的方言音频识别方法及系统

正文

推荐专利

申请号：CN202410746133

申请日期：2024-06-11

公开号：CN118737123A

公开日期：2024-10-01

类型：发明专利

摘要

本申请涉及一种端到端基于多层信息融合的方言音频识别方法、系统、电子设备及计算机可读介质。该方法包括：将方言音频进行音频预处理，生成声学特征；将所述声学特征输入到编码器中，所述编码器对其进行渐进式降采样操作，生成多层细粒度声学特征；通过层适应模块对所述多层细粒度声学特征进行多层信息融合，生成融合声学特征；通过交叉注意力机制对所述融合声学特征进行交叉融合，生成修正声学特征；将所述修正声学特征输入到端到端方言识别模型中，生成方言音频识别结果。本申请能够对复杂语音信号和多口音特征进行高效捕捉和处理、还能够在线实时进行方言音频的分类及解码，提高了语音识别的准确性和鲁棒性。

技术关键词

融合声学特征交叉注意力机制语音识别模型编码器音频识别方法多任务音频识别系统信息融合机制梅尔倒谱系数解码器框架处理器模块标签计算机程序产品文本识别

系统为您推荐了相关专利信息

基于深度学习的激光锁频系统多级PID参数调控方法

锁频系统深度学习模型参数调控方法数字PID控制器联合损失函数

药物靶点亲和力预测交互和扩张因果卷积增强网络及方法

卷积模块亲和力令牌序列网络

瞳孔中心定位方法、装置、设备及存储介质

瞳孔中心定位方法热力图坐标图像分割网络瞳孔中心定位装置

一种数据智能辅助分析方法、系统、设备及介质

辅助分析方法智能辅助分析系统电力设备管理大语言模型仓库

一种基于多模态信息的展平竹材差异化在线喷涂系统及方法

多模态信息深度图像数据表面粗糙度检测彩色图像数据激光对射传感器

一种端到端基于多层信息融合的方言音频识别方法及系统

站点导航

APP 下载