噪声环境下音视频渐进式融合训练的语音识别方法及装置

正文

推荐专利

申请号：CN202411131514

申请日期：2024-08-18

公开号：CN119107945B

公开日期：2025-04-25

类型：发明专利

摘要

本发明公开了一种噪声环境下多模态渐进式融合训练的音视频识别方法及装置，涉及音视频多模态技术领域。本发明利用多模态数据，首先构建音视频联合编码器模型，并进行迭代式无监督预训练；再添加多尺度特征提取模块和解码器构建音视频识别模型；最后对音视频识别模型进行多阶段渐进式融合训练，具体包括两个步骤：模态课程学习阶段和噪声课程学习阶段，实现模态之间的引导学习。本发明利用音频和视觉两种模态信息，实现了跨模态的特征联合映射，使模型在复杂噪声环境下依然能够保持高效的语音指令识别性能。

技术关键词

语音识别方法音频特征编码器标签噪声多尺度特征提取输入输出设备音视频识别方法视觉特征序列数据语音指令识别多模态技术注意力机制更新解码器

噪声环境下音视频渐进式融合训练的语音识别方法及装置

站点导航

APP 下载