基于视觉语言模型的交互式图像合成方法

AITNT
正文
推荐专利
基于视觉语言模型的交互式图像合成方法
申请号:CN202510365220
申请日期:2025-03-25
公开号:CN120259098A
公开日期:2025-07-04
类型:发明专利
摘要
本发明提供了基于视觉语言模型的交互式图像合成方法,S1、输入四张图片,前景图和背景图If、Ib,以及前景图的分割图Mseg和表示合成位置的图首先在位置Mp用If的像素进行Ib的逐元素替换,以获取参考图像Iref,S2、参考批次的zbt,zft,是从初始噪声zbT,zfT中逐步去噪的隐变量;输出批次的zoutt,是从初始噪声zrefT中去噪的。本发明构建了一种无需训练的控制框架,能够合成输入的前景与背景,并明确地对前景与背景之间的物理交互进行建模,同时确保两者在外观上的一致性。该框架即插即用,无需任何额外的训练。本发明扩展了视觉语言模型,并结合了链式推理,引入了新的交互概念。这些概念在去噪步骤中得到强化,从而改善了生成结果的对齐性,同时保持了分布的平滑性。
技术关键词
交互式图像 视觉 背景图 噪声 概念 滤波器 变量 标记 语义 文本 图片 策略 像素 注意力 元素 阶段 框架 物理 指令
系统为您推荐了相关专利信息
1
一种地面无人平台系统对空中目标TDOA定位方法
地面无人平台 TDOA定位方法 元素 基站 作用力
2
一种自动装配系统
自动装配系统 定位翻转装置 装配机器人 夹爪快换装置 AGV小车
3
一种基于多样性特征融合的车辆多目标跟踪方法
跟踪方法 融合特征 车辆运动轨迹 标签 数据
4
一种接触网腕臂智能安装系统及安装方法
智能安装系统 接触网腕臂 视觉引导装置 拿取结构 人机交互单元
5
基于大数据的元宇宙景区多模态交互特效生成方法及系统
特效生成方法 多模态交互 视觉 大数据 基准
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号