摘要
本发明公开了一种基于多层感知融合的鲁棒音视频语音识别方法及装置,属于音视频多模态语义建模与语音识别技术领域。该方法利用音频与视觉双模态输入,在训练阶段引入教师‑学生结构,通过自蒸馏机制指导学生模型在多种噪声条件下学习稳定的语义表示。为增强音视频特征间的对齐能力与抗干扰性能,在联合编码器内部引入多层次的抑制与增强交互模块,实现模态间逐层融合与噪声抑制,构建鲁棒性多模态融合编码器(RMIE)。所述RMIE在多层级语义空间中同时建模模态对齐与特征增强,有效缓解模态差异及噪声干扰所带来的语义偏移问题。进一步地,在RMIE的基础上引入基于注意力机制的解码器,通过微调获得具备端到端识别能力的音视频语音识别模型。
技术关键词
音视频
语音识别方法
语音识别模型
噪声条件
编码器
模态特征
解码器
注意力机制
语义
学生
教师
音频特征
噪声抑制
鲁棒性
多模态
视频采集设备