基于多尺度扩散模型的统一底层视觉预训练方法

AITNT
正文
推荐专利
基于多尺度扩散模型的统一底层视觉预训练方法
申请号:CN202510701034
申请日期:2025-05-28
公开号:CN120707982A
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了一种基于多尺度扩散模型的统一底层视觉预训练方法,包括:构建并训练多尺度退化鲁棒变分自编码器(VAE),用于提取退化鲁棒的多尺度隐空间表征;训练退化不变图像特征编码器,用于提取与退化类型无关的视觉语义特征;基于预训练的扩散模型骨干网络,结合所述鲁棒隐空间表征和视觉语义特征,构建并训练条件可控的底层视觉扩散模型,采用改进的随机微分方程(SDE)建模扩散过程;将所述多尺度退化鲁棒VAE与底层视觉扩散模型集成,构建多尺度底层视觉预训练大模型。本发明实现了对多种底层退化的统一预训练,提高了图像修复的保真度和鲁棒性。
技术关键词
预训练方法 多尺度 视觉 语义特征 条件可控 图像 编码器训练 计算机程序指令 预训练系统 集成模块 鲁棒性 学习方法 随机噪声 电子设备 处理器通信 网络结构
系统为您推荐了相关专利信息
1
基于多模态信号的运动生成方法、装置、设备及存储介质
运动生成模型 运动特征 运动生成方法 信号 语义
2
多模态事件抽取方法、装置、设备、存储介质及程序产品
文本 事件抽取方法 实体 多模态 序列特征
3
一种基于联合任务学习的家庭屋顶光伏板分割方法
屋顶光伏板 语义分割网络 边缘检测网络 分割方法 通道注意力机制
4
融合带货短视频多模态信息的消费者参与预测方法与系统
模态特征 多模态信息 交叉注意力机制 矩阵 音频特征
5
一种基于BERT特征和风格编码的低资源语音合成系统
文本 注意力机制 编码模块 风格 语义特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号