一种基于多模态特征融合的视频分类方法、装置及介质

正文

推荐专利

申请号：CN202411103411

申请日期：2024-08-13

公开号：CN119048814A

公开日期：2024-11-29

类型：发明专利

摘要

本发明属于视频分类技术领域，涉及一种基于多模态特征融合的视频分类方法、装置及介质；将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机，输出初始融合特征矩阵；将图像特征矩阵、音频特征矩阵和初始融合特征矩阵输入至沿正传播方向依次串联的L个自对齐融合层进行中期融合；将第L个自对齐融合层输出的目标图像特征矩阵中的cls token向量、目标音频特征矩阵中的cls token向量和融合特征矩阵拼接后，进行后期融合，并输入至第三多层感知机，从而对待分类视频进行分类，本申请提供的视频分类方法通过多阶段特征融合充分融合了不同模态的特征信息，提高了视频分类结果准确性。

技术关键词

融合特征音频特征矩阵视频分类方法多模态特征融合多层感知机图像对齐模块编码器子模块视频分类技术视频分类装置多阶段特征可读存储介质序列变换器计算机

一种基于多模态特征融合的视频分类方法、装置及介质

站点导航

APP 下载