摘要
本发明属于图像生成技术领域,具体公开了一种基于扩散大模型的多模态场景融合方法。首先对扩散模型主干网络的权重矩阵进行奇异值分解,用于更新主干网络的权重矩阵;然后,将文本提示词输入到扩散模型中,生成文本条件图像;文本条件图像经过VAE解码和预处理,得到预处理的文本条件图像;将预处理的文本条件图像输入到预训练的视觉分类器中预测类别,得到预测标签;根据预测标签与真实标签计算更新损失,对扩散模型的参数进行更新,实现扩散模型的微调;最后,利用微调后的扩散模型生成场景融合图像;场景融合分为两个阶段,第一阶段是通过对背景图像和前景图像进行采样生成合并噪声图像,第二阶段是利用合并噪声图像迭代生成场景融合图像。该方法利用图像引导图像生成,实现前景图像与背景图像的无缝融合,同时利用控制信息引导图像生成,增强了场景融合的可控性。
技术关键词
场景融合方法
噪声图像
文本
生成场景
背景噪声
预测类别
网络
图像生成技术
标签
分类器
矩阵
编码器
解码
视觉
中间层
标记
参数
对象
系统为您推荐了相关专利信息
图像搜索引擎
大语言模型
文本
图像检索方法
关键词
文本
编码器
电子设备
计算机程序产品
人工智能模型