一种基于扩散模型进行文本引导可控人像生成方法及系统

正文

推荐专利

申请号：CN202411517967

申请日期：2024-10-29

公开号：CN119444933B

公开日期：2025-08-19

类型：发明专利

摘要

本发明公开了一种基于扩散模型进行文本引导可控人像生成方法及系统，首先将文本提示T输入到CLIP模型中，获取文本嵌入vp；然后基于文本嵌入vp，利用文本姿态生成模型G，提取文本引导条件所指定的姿态引导图；接着利用面部微调模型M，细化姿态引导图的面部关键点的初始估计，输出姿态引导图P；最后给定一张输入图片x0，基于姿态引导图P，利用姿态人像编辑模型，生成编辑后的人像。本发明提出的模型在DF‑PASS数据集上的实验结果验证了该模型的有效性，本发明能有效提高生成图像的灵活性和多样性，减少图像局部模糊，增强图像保真度。

技术关键词

人像生成方法面部关键点文本去噪模型噪声预测编辑图像线性坐标样本生成系统图片处理器纹理存储装置分类器训练集

系统为您推荐了相关专利信息

一种利用RAG技术增强网页导航的方法及相关装置

网页元素大语言模型多模态拼音文本

一种知识和数据双轮驱动的代码生成方法

代码生成方法自然语言双轮数据训练分类器模型

电网故障诊断查询系统的稀疏知识图谱补全方法、系统及存储介质

电网故障诊断知识图谱补全方法查询系统三元组 EM算法

一种数据处理方法和装置

实体属性数据节点导入工具数据处理方法标签

基于图像去噪扩散模型的遥感图像可控编辑方法和系统

光学遥感图像图像特征编码遥感场景图像图像特征提取数据处理器

一种基于扩散模型进行文本引导可控人像生成方法及系统

站点导航

APP 下载