摘要
本发明提出一种基于多模态条件扩散模型的SAR图像到光学图像转换方法。首先,收集具有配对关系的SAR图像与光学图像数据,确保样本在场景类型、目标结构与图像风格方面具备多样性。其次,采用图像‑语言多模态模型分别生成SAR与光学图像的文本描述,并通过语义解析与融合,构建统一的语言描述,形成包含结构、语义与风格信息的光‑SAR‑文本三模态训练样本集。本发明设计并训练一种多模态条件引导的去噪扩散模型,以原始光学图像的加噪‑去噪重建过程作为优化目标,引入SAR图像、语言描述及风格图像作为多模态提示条件,全面引导生成图像在结构还原、语义对齐与风格呈现方面的表达。
技术关键词
多模态
转换方法
风格
结构先验信息
光学图像数据
场景
交叉注意力机制
遥感图像数据
语义特征
文本编码器
噪声预测
重建误差
训练样本集
噪声分量
系统为您推荐了相关专利信息
交互系统
显示处理单元
接收端
信号接收模块
多模态
轨迹追踪方法
点云
动态时间规整
恒虚警率检测
评分机制
智能管理方法
区块链溯源
多模态
商品图像识别
电子价签