基于多尺度扩散模型的统一底层视觉预训练方法

正文

推荐专利

申请号：CN202510701034

申请日期：2025-05-28

公开号：CN120707982A

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了一种基于多尺度扩散模型的统一底层视觉预训练方法，包括：构建并训练多尺度退化鲁棒变分自编码器（VAE），用于提取退化鲁棒的多尺度隐空间表征；训练退化不变图像特征编码器，用于提取与退化类型无关的视觉语义特征；基于预训练的扩散模型骨干网络，结合所述鲁棒隐空间表征和视觉语义特征，构建并训练条件可控的底层视觉扩散模型，采用改进的随机微分方程（SDE）建模扩散过程；将所述多尺度退化鲁棒VAE与底层视觉扩散模型集成，构建多尺度底层视觉预训练大模型。本发明实现了对多种底层退化的统一预训练，提高了图像修复的保真度和鲁棒性。

技术关键词

预训练方法多尺度视觉语义特征条件可控图像编码器训练计算机程序指令预训练系统集成模块鲁棒性学习方法随机噪声电子设备处理器通信网络结构

系统为您推荐了相关专利信息

基于多模态信号的运动生成方法、装置、设备及存储介质

运动生成模型运动特征运动生成方法信号语义

多模态事件抽取方法、装置、设备、存储介质及程序产品

文本事件抽取方法实体多模态序列特征

一种基于联合任务学习的家庭屋顶光伏板分割方法

屋顶光伏板语义分割网络边缘检测网络分割方法通道注意力机制

融合带货短视频多模态信息的消费者参与预测方法与系统

模态特征多模态信息交叉注意力机制矩阵音频特征

一种基于BERT特征和风格编码的低资源语音合成系统

文本注意力机制编码模块风格语义特征

基于多尺度扩散模型的统一底层视觉预训练方法

站点导航

APP 下载