摘要
本发明的一种基于扩散模型的文本条件引导的图像外扩方法与终端,接收用户传入的原始图像,针对原始图像,利用预训练的多模态大语言模型生成外扩文本条件;对原始图像进行特征编码,生成图像特征,对外扩文本条件进行特征编码,生成文本特征;将图像特征以及文本特征输入预训练的基于双UNet网络的潜在扩散模型,基于潜在扩散模型生成外扩图像;本发明引入多模态大语言模型生成文本条件,使外扩内容符合语义逻辑,提升合理性与美观度;双UNet结构将文本语义与原始图像特征分模块处理,避免单UNet交叉注意力负担过重,增强外扩内容与原图的语义连贯性;通过数据增强与双UNet架构,支持图像任意像素外扩,突破生成对抗网络的外扩范围限制。
技术关键词
文本
大语言模型
图像嵌入
生成图像特征
输出特征
多模态
执行图像编码
多层感知机
嵌入特征
卷积神经网络提取
模块
注意力
生成对抗网络
数据
解码器
噪声
语义
系统为您推荐了相关专利信息
校验规则
边缘检测模型
数据校验方法
校验系统
项目
图像分类系统
零样本图像分类
教师
对齐模块
学生
路径生成方法
本质
大语言模型
路径生成系统
数据
遥感图像分割方法
瓶颈特征
变形特征
编码器
输出特征
大语言模型
代码解释器
特征工程
金属有机骨架化合物
性能测试数据