基于多层感知融合的鲁棒音视频语音识别方法及装置

正文

推荐专利

申请号：CN202510925715

申请日期：2025-07-06

公开号：CN120783759A

公开日期：2025-10-14

类型：发明专利

摘要

本发明公开了一种基于多层感知融合的鲁棒音视频语音识别方法及装置，属于音视频多模态语义建模与语音识别技术领域。该方法利用音频与视觉双模态输入，在训练阶段引入教师‑学生结构，通过自蒸馏机制指导学生模型在多种噪声条件下学习稳定的语义表示。为增强音视频特征间的对齐能力与抗干扰性能，在联合编码器内部引入多层次的抑制与增强交互模块，实现模态间逐层融合与噪声抑制，构建鲁棒性多模态融合编码器(RMIE)。所述RMIE在多层级语义空间中同时建模模态对齐与特征增强，有效缓解模态差异及噪声干扰所带来的语义偏移问题。进一步地，在RMIE的基础上引入基于注意力机制的解码器，通过微调获得具备端到端识别能力的音视频语音识别模型。

技术关键词

音视频语音识别方法语音识别模型噪声条件编码器模态特征解码器注意力机制语义学生教师音频特征噪声抑制鲁棒性多模态视频采集设备

基于多层感知融合的鲁棒音视频语音识别方法及装置

站点导航

APP 下载