摘要
本发明涉及自监督学习技术领域,具体是一种基于Transformer的目标检测预训练方法。本发明设计了CL‑MAE(Contrastive Learning‑Masked Autoencoder)自监督预训练方法,采用双分支架构处理原图像和增强图像,通过冻结原图分支参数、使用指数移动平均更新增强分支参数,并引入多视图对比学习,有效防止编码器"偷懒"问题——即依赖解码器完成重建任务。预训练完成后,将ViT(Vision Transformer)编码器权重迁移到基于PVT(Pyramid Vision Transformer)的目标检测网络中,配合FPN(Feature Pyramid Networks)特征融合和专门检测头,实现从自监督预训练到目标检测的转换。该方法解决了传统目标检测模型中依赖标注数据的问题,同时避免了掩码自编码器进行自监督预训练时的“偷懒”问题。相比无预训练模型,本方法取得了更好的目标检测精度和收敛速度。
技术关键词
预训练方法
分支
编码器
图像块
金字塔结构
通用特征
监督学习技术
损失函数设计
检测头
动态更新
阶段
解码器
网络
参数
图像重建
分辨率
输出特征
图像分割
上采样