摘要
本申请提供了一种基于隐式多模态引导对齐的扩散生成方法,涉及图像处理技术领域。本申请中,对于扩散生成的图像以及预期文本提示,通过多模态大语言模型生成对扩散模型生成的初始图像进行对齐的隐式多模态引导特征;通过隐式对齐器器,通过操作隐藏特征来对齐扩散模型生成的初始图像中与预期提示文本不匹配的特征;本申请提出的基于隐式多模态引导对齐的扩散生成方法在不牺牲输出质量的情况下有效地减少了生成图像和预期文本提示之间的不匹配。
技术关键词
扩散生成方法
大语言模型
多模态
文本
指令
编辑
对齐模块
三元组
生成装置
编码器
处理器
网络
特征提取模块
图像处理技术
计算机程序产品
可读存储介质
存储器
参数
算法
系统为您推荐了相关专利信息
路径跟踪控制方法
无人艇
偏差
PID控制器
参数
生成方法
数据编码器
文本段落
语义特征提取
文本特征向量