摘要
本发明公开了一种基于多尺度扩散模型的统一底层视觉预训练方法,包括:构建并训练多尺度退化鲁棒变分自编码器(VAE),用于提取退化鲁棒的多尺度隐空间表征;训练退化不变图像特征编码器,用于提取与退化类型无关的视觉语义特征;基于预训练的扩散模型骨干网络,结合所述鲁棒隐空间表征和视觉语义特征,构建并训练条件可控的底层视觉扩散模型,采用改进的随机微分方程(SDE)建模扩散过程;将所述多尺度退化鲁棒VAE与底层视觉扩散模型集成,构建多尺度底层视觉预训练大模型。本发明实现了对多种底层退化的统一预训练,提高了图像修复的保真度和鲁棒性。
技术关键词
预训练方法
多尺度
视觉
语义特征
条件可控
图像
编码器训练
计算机程序指令
预训练系统
集成模块
鲁棒性
学习方法
随机噪声
电子设备
处理器通信
网络结构
系统为您推荐了相关专利信息
屋顶光伏板
语义分割网络
边缘检测网络
分割方法
通道注意力机制
模态特征
多模态信息
交叉注意力机制
矩阵
音频特征