摘要
本发明涉及底层视觉预训练技术领域,公开了一种无需图像的底层视觉预训练方法,包括:从高斯分布中随机采样,得到纯高斯噪声图像;对纯高斯噪声图像执行频率感知掩蔽策略,得到输入图像;频谱信息重建预训练,对需要预训练的底层视觉模型的结构进行第一次修改;下游降质复原任务微调,保留预训练的第一次修改后的底层视觉模型的参数,并第二次修改底层视觉模型的结构,以进行下游任务的训练。本发明基于退化信息在频谱域上表现出的干扰模式的类别差异性,提出了频率感知掩蔽策略,打破了传统的从数据中学习任务通用信息的预训练范式,仅使用一张随机生成的高斯噪声图像,以极低的计算成本实现了退化类型不可知的通用可转移性表示学习。
技术关键词
预训练方法
噪声图像
视觉
编码器模块
掩膜
模型预训练
解码器
策略
重构
频率
图像重建
三通道
像素
参数
连续性
矩阵
阶段