摘要
本申请实施例提供了一种基于多模态的视频分类方法和装置、电子设备及介质,属于人工智能技术领域,应用于金融场景和医疗场景。该方法包括:获取包含多模态信息的目标视频,并对多模态信息进行特征提取;并将构建视觉语义特征、文本语义特征及音频语义特征两两之间的模态对进行二值掩码激活处理,根据模态对二值掩码对候选模态对进行模态对筛选;提取并融合多模态语义特征的各模态上下文特征,以根据融合多模态特征对目标视频进行视频分类。本申请实施例通过对多模态的候选模态对进行二值掩码激活处理,能够自适应地筛选最相关的模态对进行交互,并根据融合的上下文多模态特征对目标视频进行视频分类,提高了视频分类的准确性。
技术关键词
上下文特征
融合多模态特征
视频分类标签
视频分类模型
视频分类方法
语义特征提取
注意力
文本
音频
视觉
视频分类装置
电子设备
多模态信息
医疗场景
可读存储介质