基于视觉语言模型的交互式图像合成方法

正文

推荐专利

基于视觉语言模型的交互式图像合成方法

申请号：CN202510365220

申请日期：2025-03-25

公开号：CN120259098A

公开日期：2025-07-04

类型：发明专利

摘要

本发明提供了基于视觉语言模型的交互式图像合成方法，S1、输入四张图片，前景图和背景图If、Ib,以及前景图的分割图Mseg和表示合成位置的图首先在位置Mp用If的像素进行Ib的逐元素替换，以获取参考图像Iref，S2、参考批次的zbt,zft，是从初始噪声zbT,zfT中逐步去噪的隐变量；输出批次的zoutt，是从初始噪声zrefT中去噪的。本发明构建了一种无需训练的控制框架，能够合成输入的前景与背景，并明确地对前景与背景之间的物理交互进行建模，同时确保两者在外观上的一致性。该框架即插即用，无需任何额外的训练。本发明扩展了视觉语言模型，并结合了链式推理，引入了新的交互概念。这些概念在去噪步骤中得到强化，从而改善了生成结果的对齐性，同时保持了分布的平滑性。

技术关键词

交互式图像视觉背景图噪声概念滤波器变量标记语义文本图片策略像素注意力元素阶段框架物理指令

系统为您推荐了相关专利信息

一种地面无人平台系统对空中目标TDOA定位方法

地面无人平台 TDOA定位方法元素基站作用力

一种自动装配系统

自动装配系统定位翻转装置装配机器人夹爪快换装置 AGV小车

一种基于多样性特征融合的车辆多目标跟踪方法

跟踪方法融合特征车辆运动轨迹标签数据

一种接触网腕臂智能安装系统及安装方法

智能安装系统接触网腕臂视觉引导装置拿取结构人机交互单元

基于大数据的元宇宙景区多模态交互特效生成方法及系统

特效生成方法多模态交互视觉大数据基准

基于视觉语言模型的交互式图像合成方法

站点导航

APP 下载