一种端到端基于多层信息融合的方言音频识别方法及系统

AITNT
正文
推荐专利
一种端到端基于多层信息融合的方言音频识别方法及系统
申请号:CN202410746133
申请日期:2024-06-11
公开号:CN118737123A
公开日期:2024-10-01
类型:发明专利
摘要
本申请涉及一种端到端基于多层信息融合的方言音频识别方法、系统、电子设备及计算机可读介质。该方法包括:将方言音频进行音频预处理,生成声学特征;将所述声学特征输入到编码器中,所述编码器对其进行渐进式降采样操作,生成多层细粒度声学特征;通过层适应模块对所述多层细粒度声学特征进行多层信息融合,生成融合声学特征;通过交叉注意力机制对所述融合声学特征进行交叉融合,生成修正声学特征;将所述修正声学特征输入到端到端方言识别模型中,生成方言音频识别结果。本申请能够对复杂语音信号和多口音特征进行高效捕捉和处理、还能够在线实时进行方言音频的分类及解码,提高了语音识别的准确性和鲁棒性。
技术关键词
融合声学特征 交叉注意力机制 语音识别模型 编码器 音频识别方法 多任务 音频识别系统 信息融合机制 梅尔倒谱系数 解码器 框架 处理器 模块 标签 计算机程序产品 文本识别
系统为您推荐了相关专利信息
1
基于深度学习的激光锁频系统多级PID参数调控方法
锁频系统 深度学习模型 参数调控方法 数字PID控制器 联合损失函数
2
药物靶点亲和力预测交互和扩张因果卷积增强网络及方法
卷积模块 亲和力 令牌 序列 网络
3
瞳孔中心定位方法、装置、设备及存储介质
瞳孔中心定位方法 热力图 坐标 图像分割网络 瞳孔中心定位装置
4
一种数据智能辅助分析方法、系统、设备及介质
辅助分析方法 智能辅助分析系统 电力设备管理 大语言模型 仓库
5
一种基于多模态信息的展平竹材差异化在线喷涂系统及方法
多模态信息 深度图像数据 表面粗糙度检测 彩色图像数据 激光对射传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号