摘要
本发明提供了基于视觉语言模型的交互式图像合成方法,S1、输入四张图片,前景图和背景图If、Ib,以及前景图的分割图Mseg和表示合成位置的图首先在位置Mp用If的像素进行Ib的逐元素替换,以获取参考图像Iref,S2、参考批次的zbt,zft,是从初始噪声zbT,zfT中逐步去噪的隐变量;输出批次的zoutt,是从初始噪声zrefT中去噪的。本发明构建了一种无需训练的控制框架,能够合成输入的前景与背景,并明确地对前景与背景之间的物理交互进行建模,同时确保两者在外观上的一致性。该框架即插即用,无需任何额外的训练。本发明扩展了视觉语言模型,并结合了链式推理,引入了新的交互概念。这些概念在去噪步骤中得到强化,从而改善了生成结果的对齐性,同时保持了分布的平滑性。
技术关键词
交互式图像
视觉
背景图
噪声
概念
滤波器
变量
标记
语义
文本
图片
策略
像素
注意力
元素
阶段
框架
物理
指令
系统为您推荐了相关专利信息
地面无人平台
TDOA定位方法
元素
基站
作用力
自动装配系统
定位翻转装置
装配机器人
夹爪快换装置
AGV小车
智能安装系统
接触网腕臂
视觉引导装置
拿取结构
人机交互单元