摘要
本发明提出一种仅用图像条件实现材质迁移的扩散变换器方法,包括:先获取目标与材质图像,生成光照和深度图像,经共享潜在空间编码器转换为统一图像标记;再通过扩散变换器的多模态注意力机制统一处理,结合交叉偏差调制实现跨模态交互,利用低秩自适应模块增强深度控制,执行背景保持混合融合前景与背景,最终生成继承目标结构和材质纹理的输出图像。该方法的MaTe架构在token级别集成输入图像,共享潜在空间通过多模态注意力统一处理,消除对适配器、ControlNet等的依赖,无需文本提示和模型微调,实现zero‑shot高质量材质生成,降低架构复杂性,提升效率与质量,适用于数字创作、工业设计等领域。
技术关键词
变换器
多模态注意力
标记
光照
跨模态
注意力机制
序列
图像编码器
偏差
噪声预测
适配器
图像结构
计算机程序产品
强度
矩阵
因子
纹理