一种基于扩散模型的文本条件引导的图像外扩方法与终端

正文

推荐专利

申请号：CN202510741426

申请日期：2025-06-05

公开号：CN120259113B

公开日期：2025-08-22

类型：发明专利

摘要

本发明的一种基于扩散模型的文本条件引导的图像外扩方法与终端，接收用户传入的原始图像，针对原始图像，利用预训练的多模态大语言模型生成外扩文本条件；对原始图像进行特征编码，生成图像特征，对外扩文本条件进行特征编码，生成文本特征；将图像特征以及文本特征输入预训练的基于双UNet网络的潜在扩散模型，基于潜在扩散模型生成外扩图像；本发明引入多模态大语言模型生成文本条件，使外扩内容符合语义逻辑，提升合理性与美观度；双UNet结构将文本语义与原始图像特征分模块处理，避免单UNet交叉注意力负担过重，增强外扩内容与原图的语义连贯性；通过数据增强与双UNet架构，支持图像任意像素外扩，突破生成对抗网络的外扩范围限制。

技术关键词

文本大语言模型图像嵌入生成图像特征输出特征多模态执行图像编码多层感知机嵌入特征卷积神经网络提取模块注意力生成对抗网络数据解码器噪声语义

系统为您推荐了相关专利信息

一种用户行为预测驱动的语音识别控制系统

语音识别控制系统语音特征提取语音识别模块梅尔频率倒谱系数大语言模型

一种基于多模态数据的智能合约漏洞检测方法及系统

多模态智能合约漏洞生成代码数据检测模型训练

图像处理方法、电子设备以及存储介质

图像处理方法对象样本文本像素点

基于大语言模型的复杂任务分解与动态优化方法和装置

大语言模型动态优化方法执行主体指令队列

基于思维树的检索增强生成方法、装置、设备及介质

生成方法语义特征关联算法智能决策技术关键词

一种基于扩散模型的文本条件引导的图像外扩方法与终端

站点导航

APP 下载