一种基于扩散大模型的多模态场景融合方法

正文

推荐专利

一种基于扩散大模型的多模态场景融合方法

申请号：CN202411537210

申请日期：2024-10-31

公开号：CN119338940A

公开日期：2025-01-21

类型：发明专利

摘要

本发明属于图像生成技术领域，具体公开了一种基于扩散大模型的多模态场景融合方法。首先对扩散模型主干网络的权重矩阵进行奇异值分解，用于更新主干网络的权重矩阵；然后，将文本提示词输入到扩散模型中，生成文本条件图像；文本条件图像经过VAE解码和预处理，得到预处理的文本条件图像；将预处理的文本条件图像输入到预训练的视觉分类器中预测类别，得到预测标签；根据预测标签与真实标签计算更新损失，对扩散模型的参数进行更新，实现扩散模型的微调；最后，利用微调后的扩散模型生成场景融合图像；场景融合分为两个阶段，第一阶段是通过对背景图像和前景图像进行采样生成合并噪声图像，第二阶段是利用合并噪声图像迭代生成场景融合图像。该方法利用图像引导图像生成，实现前景图像与背景图像的无缝融合，同时利用控制信息引导图像生成，增强了场景融合的可控性。

技术关键词

场景融合方法噪声图像文本生成场景背景噪声预测类别网络图像生成技术标签分类器矩阵编码器解码视觉中间层标记参数对象

系统为您推荐了相关专利信息

一种图像搜索引擎的生成方法、图像检索方法和系统

图像搜索引擎大语言模型文本图像检索方法关键词

一种智能文本数据标签生成方法及系统

数据标签生成方法生成标签样本文本生成机制

基于大语言模型的汽车金融服务优化方法、系统及设备

大语言模型评价特征文本金融聚类

一种保单综合电子化质检管理平台

文本报告抽象语法树访问控制单元校验规则库

由电子设备执行的方法、电子设备、存储介质及计算机程序产品

文本编码器电子设备计算机程序产品人工智能模型

一种基于扩散大模型的多模态场景融合方法

站点导航

APP 下载