摘要
本发明公开了一种噪声环境下多模态渐进式融合训练的音视频识别方法及装置,涉及音视频多模态技术领域。本发明利用多模态数据,首先构建音视频联合编码器模型,并进行迭代式无监督预训练;再添加多尺度特征提取模块和解码器构建音视频识别模型;最后对音视频识别模型进行多阶段渐进式融合训练,具体包括两个步骤:模态课程学习阶段和噪声课程学习阶段,实现模态之间的引导学习。本发明利用音频和视觉两种模态信息,实现了跨模态的特征联合映射,使模型在复杂噪声环境下依然能够保持高效的语音指令识别性能。
技术关键词
语音识别方法
音频特征
编码器
标签
噪声
多尺度特征提取
输入输出设备
音视频识别方法
视觉特征
序列
数据
语音指令识别
多模态技术
注意力机制
更新解码器