一种基于扩散大模型的多模态场景融合方法

AITNT
正文
推荐专利
一种基于扩散大模型的多模态场景融合方法
申请号:CN202411537210
申请日期:2024-10-31
公开号:CN119338940A
公开日期:2025-01-21
类型:发明专利
摘要
本发明属于图像生成技术领域,具体公开了一种基于扩散大模型的多模态场景融合方法。首先对扩散模型主干网络的权重矩阵进行奇异值分解,用于更新主干网络的权重矩阵;然后,将文本提示词输入到扩散模型中,生成文本条件图像;文本条件图像经过VAE解码和预处理,得到预处理的文本条件图像;将预处理的文本条件图像输入到预训练的视觉分类器中预测类别,得到预测标签;根据预测标签与真实标签计算更新损失,对扩散模型的参数进行更新,实现扩散模型的微调;最后,利用微调后的扩散模型生成场景融合图像;场景融合分为两个阶段,第一阶段是通过对背景图像和前景图像进行采样生成合并噪声图像,第二阶段是利用合并噪声图像迭代生成场景融合图像。该方法利用图像引导图像生成,实现前景图像与背景图像的无缝融合,同时利用控制信息引导图像生成,增强了场景融合的可控性。
技术关键词
场景融合方法 噪声图像 文本 生成场景 背景噪声 预测类别 网络 图像生成技术 标签 分类器 矩阵 编码器 解码 视觉 中间层 标记 参数 对象
系统为您推荐了相关专利信息
1
一种图像搜索引擎的生成方法、图像检索方法和系统
图像搜索引擎 大语言模型 文本 图像检索方法 关键词
2
一种智能文本数据标签生成方法及系统
数据标签生成方法 生成标签 样本 文本 生成机制
3
基于大语言模型的汽车金融服务优化方法、系统及设备
大语言模型 评价特征 文本 金融 聚类
4
一种保单综合电子化质检管理平台
文本 报告 抽象语法树 访问控制单元 校验规则库
5
由电子设备执行的方法、电子设备、存储介质及计算机程序产品
文本 编码器 电子设备 计算机程序产品 人工智能模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号