一种多模态掩码视频描述模型

正文

推荐专利

一种多模态掩码视频描述模型

申请号：CN202510723186

申请日期：2025-05-30

公开号：CN120751161A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种多模态掩码视频描述模型。包括预处理模块、多模态融合编码模块和多模态融合解码模块；本发明的模型融合了包含丰富语义关联信息的音频模态和掩码视频图像模态，本发明通过引入掩码机制来随机屏蔽掉输入的视频图像标记块，将它和音频图谱送入统一的多模态编码器用来增强图像的语义信息。

技术关键词

补丁多模态编码模块标记视频语义解码模块归一化模块多层感知器注意力序列自然语言掩码技术融合策略音频特征语音特征图像块