一种基于Transformer的目标检测预训练方法

正文

推荐专利

申请号：CN202510927570

申请日期：2025-07-07

公开号：CN120766030A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及自监督学习技术领域，具体是一种基于Transformer的目标检测预训练方法。本发明设计了CL‑MAE（Contrastive Learning‑Masked Autoencoder）自监督预训练方法，采用双分支架构处理原图像和增强图像，通过冻结原图分支参数、使用指数移动平均更新增强分支参数，并引入多视图对比学习，有效防止编码器"偷懒"问题——即依赖解码器完成重建任务。预训练完成后，将ViT（Vision Transformer）编码器权重迁移到基于PVT（Pyramid Vision Transformer）的目标检测网络中，配合FPN（Feature Pyramid Networks）特征融合和专门检测头，实现从自监督预训练到目标检测的转换。该方法解决了传统目标检测模型中依赖标注数据的问题，同时避免了掩码自编码器进行自监督预训练时的“偷懒”问题。相比无预训练模型，本方法取得了更好的目标检测精度和收敛速度。

技术关键词

预训练方法分支编码器图像块金字塔结构通用特征监督学习技术损失函数设计检测头动态更新阶段解码器网络参数图像重建分辨率输出特征图像分割上采样

一种基于Transformer的目标检测预训练方法

站点导航

APP 下载