摘要
本发明涉及一种基于曼巴网络对图像基础模型进行适应调节的视频分类方法。通过引入曼巴网络的状态空间模型与图像基础模型相结合,实现了对视频数据中时空特征的高效提取与适应性调节,从而提高了视频识别系统的准确性和计算效率。包括以下主要步骤:对输入视频进行预处理编码为长序列的视频特征;使用窗口划分对长序列视频特征进行分组并在组内计算自相关性特征;利用曼巴网络处理长序列视频特征,并通过调制函数进行调节;将调制后的特征送入图像基础模型的后续层进行前向传播;通过分类器进行视频分类。本发明提供了一种新的视频识别框架,能够在不改变基础模型结构的前提下,通过曼巴网络的调节机制,提升视频识别性能。
技术关键词
视频分类方法
序列
基础
输出特征
视频分类系统
状态空间模型
网络
分类器
视频识别系统
位置编码信息
注意力机制
模型预训练
视频帧
图像编码
模块
蒸馏
系统为您推荐了相关专利信息
人脸特征
标识
身份
跟踪识别方法
非易失性计算机可读存储介质