摘要
本发明属于视频分类技术领域,涉及一种基于多模态特征融合的视频分类方法、装置及介质;将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机,输出初始融合特征矩阵;将图像特征矩阵、音频特征矩阵和初始融合特征矩阵输入至沿正传播方向依次串联的L个自对齐融合层进行中期融合;将第L个自对齐融合层输出的目标图像特征矩阵中的cls token向量、目标音频特征矩阵中的cls token向量和融合特征矩阵拼接后,进行后期融合,并输入至第三多层感知机,从而对待分类视频进行分类,本申请提供的视频分类方法通过多阶段特征融合充分融合了不同模态的特征信息,提高了视频分类结果准确性。
技术关键词
融合特征
音频特征
矩阵
视频分类方法
多模态特征融合
多层感知机
图像
对齐模块
编码器
子模块
视频分类技术
视频分类装置
多阶段特征
可读存储介质
序列
变换器
计算机