一种基于联合扩散建模的图像生成与理解统一方法及系统

正文

推荐专利

申请号：CN202511205486

申请日期：2025-08-27

公开号：CN120953442A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种基于联合扩散建模的图像生成与理解统一方法及系统，其涉及图像生成和理解技术领域。本发明通过联合扩散建模统一图像生成与理解任务，无需为生成和理解任务分别设计模型，提升效率。通过改进的DINOv2、Segmenter、DETR模型增强了分类特征类簇聚合性、分割边界细节及检测中小目标特征表达。随机角色分配机制和掩码全注意力机制灵活处理多域信息，域不变位置编码辅助跨域对齐，提升建模精度。通过优化训练使模型同时支持联合生成、可控生成及图像感知任务，性能优于现有统一模型，在边缘检测等任务上甚至超过专有模型。

技术关键词

训练特征图像分类模型图像分割模型编码器融合特征融合编码信息注意力机制多尺度特征子模块标签语义感知特征分类特征速度预测模型卷积特征边缘检测算子

系统为您推荐了相关专利信息

三维模型的生成方法、装置、设备以及存储介质

三维模型三维网络结构特征提取模块视频编码特征

基于深度互信息与变分编码器的遥感图像小样本分割方法

原型最大化方法样本特征学习算法图像全局特征

一种机器人关节模组及机器人

机器人关节模组内齿圈电机组件绝缘挡板穿线管

用于大语言模型问答的自适应多跳检索知识图谱构造方法

三元组大语言模型知识库实体构建知识图谱知识图谱构建

一种脑出血CT影像的智能图像处理方法和系统

智能图像处理方法影像 Fisher准则脑部CT图像 CT图像处理

一种基于联合扩散建模的图像生成与理解统一方法及系统

站点导航

APP 下载