摘要
本发明属于计算机视觉领域,具体涉及一种基于扩散模型的一致性身份图片生成方法,包括:采用多模态大语言模型生成最优的成对数据,其中成对数据包括文本数据和对应的图像数据;采用文本编码器对文本数据进行编码处理,得到文本嵌入向量;采用图像编码器对图像数据进行处理,得到图像嵌入向量;将文本嵌入向量和图像嵌入向量输入到MLP模块中将进入融合,得到融合嵌入向量;将所有的融合嵌入向量进行堆叠,并采用交叉注意力层对堆叠的融合嵌入向量进行处理,得到深层次特征;对深层次特征进行多阶段调整,得到一致性身份图片;本申请采用由粗到细的多阶段微调方法,逐步优化生成图像的视觉质量。
技术关键词
图片生成方法
文本编码器
文本生成模型
身份
图像嵌入
多模态
图像编码器
大语言模型
数据
多层感知机
多阶段
注意力机制
多层次特征
生成文字
特征提取器
微调方法
计算机视觉
系统为您推荐了相关专利信息
门禁机
快递单
门禁管理系统
门禁管理方法
门禁控制器
下电力系统
数据访问权限
数据处理方法
密钥交换算法
身份
身份验证
实体信誉评分
数据
欺诈检测
货物运输车辆
文本生成模型
实体
文本生成方法
知识图谱向量
关系
OCR识别方法
身份证照片
深度学习算法
识别系统
训练集数据