一种基于扩散模型的文本条件引导的图像外扩方法与终端

AITNT
正文
推荐专利
一种基于扩散模型的文本条件引导的图像外扩方法与终端
申请号:CN202510741426
申请日期:2025-06-05
公开号:CN120259113B
公开日期:2025-08-22
类型:发明专利
摘要
本发明的一种基于扩散模型的文本条件引导的图像外扩方法与终端,接收用户传入的原始图像,针对原始图像,利用预训练的多模态大语言模型生成外扩文本条件;对原始图像进行特征编码,生成图像特征,对外扩文本条件进行特征编码,生成文本特征;将图像特征以及文本特征输入预训练的基于双UNet网络的潜在扩散模型,基于潜在扩散模型生成外扩图像;本发明引入多模态大语言模型生成文本条件,使外扩内容符合语义逻辑,提升合理性与美观度;双UNet结构将文本语义与原始图像特征分模块处理,避免单UNet交叉注意力负担过重,增强外扩内容与原图的语义连贯性;通过数据增强与双UNet架构,支持图像任意像素外扩,突破生成对抗网络的外扩范围限制。
技术关键词
文本 大语言模型 图像嵌入 生成图像特征 输出特征 多模态 执行图像编码 多层感知机 嵌入特征 卷积神经网络提取 模块 注意力 生成对抗网络 数据 解码器 噪声 语义
系统为您推荐了相关专利信息
1
数据校验方法、装置、计算机设备、存储介质及程序产品
校验规则 边缘检测模型 数据校验方法 校验系统 项目
2
一种零样本图像分类系统及方法
图像分类系统 零样本图像分类 教师 对齐模块 学生
3
一种基于电力行业本质的安全分析路径生成方法及系统
路径生成方法 本质 大语言模型 路径生成系统 数据
4
一种基于码本与交叉变形融合的跨域遥感图像分割方法
遥感图像分割方法 瓶颈特征 变形特征 编码器 输出特征
5
基于大语言模型的MOFs合成自动化模拟方法与系统
大语言模型 代码解释器 特征工程 金属有机骨架化合物 性能测试数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号