基于多模态的视频分类方法和装置、电子设备及介质

正文

推荐专利

申请号：CN202510926929

申请日期：2025-07-04

公开号：CN120852860A

公开日期：2025-10-28

类型：发明专利

摘要

本申请实施例提供了一种基于多模态的视频分类方法和装置、电子设备及介质，属于人工智能技术领域，应用于金融场景和医疗场景。该方法包括：获取包含多模态信息的目标视频，并对多模态信息进行特征提取；并将构建视觉语义特征、文本语义特征及音频语义特征两两之间的模态对进行二值掩码激活处理，根据模态对二值掩码对候选模态对进行模态对筛选；提取并融合多模态语义特征的各模态上下文特征，以根据融合多模态特征对目标视频进行视频分类。本申请实施例通过对多模态的候选模态对进行二值掩码激活处理，能够自适应地筛选最相关的模态对进行交互，并根据融合的上下文多模态特征对目标视频进行视频分类，提高了视频分类的准确性。

技术关键词

上下文特征融合多模态特征视频分类标签视频分类模型视频分类方法语义特征提取注意力文本音频视觉视频分类装置电子设备多模态信息医疗场景可读存储介质

基于多模态的视频分类方法和装置、电子设备及介质

站点导航

APP 下载