摘要
该发明公开了一种基于多模态适配器的第一视角增量行为识别方法,本发明涉及视频图像处理领域。本发明旨在通过时序蒸馏损失将旧任务识别模型中的时序感知能力迁移到当前任务识别模型中,并结合模态平衡适配器,通过旧任务识别模型的特征高斯采样和当前任务识别模型的特征高斯采样实现分类层对多任务的增量识别。首先在冻结的ImageNet数据集上预训练的Vit‑B/16模型的所有Transformer编码器的前向网络层的前后以残差的形式插入多模态时序感知适配器,实现在Transformer编码器中从视觉模态、加速度模态和陀螺仪模态的特征中提取时序信息,并通过时序蒸馏损失保证当前任务识别模型和旧任务识别模型的时序信息尽可能靠近。最后,通过计算当前任务识别模型的特征均值和方差构建当前任务的特征高斯分布,并结合旧任务识别模型的特征高斯分布实现多任务的特征高斯采样,在当前任务的分类层前插入模态平衡适配器,利用采样特征和模态平衡适配器再次训练当前任务的分类层,以提高分类层对各任务的识别能力。
技术关键词
平衡适配器
采样模块
陀螺仪
多模态
生成特征集
加速度
视觉特征
编码器
识别方法
时序特征
视角
非线性
计算方法
多任务
蒸馏
代表