一种基于扩散模型的文本编辑人脸图像属性的方法

正文

推荐专利

申请号：CN202510268494

申请日期：2025-03-07

公开号：CN120411304A

公开日期：2025-08-01

类型：发明专利

摘要

本发明提出一种基于扩散模型的文本编辑人脸图像属性的方法，实现高质量且保持身份一致性的灵活面部编辑。步骤包括：构建描述控制人脸扩散模型包括噪声预测网络和变分自编码器，噪声预测网络包括多个文本对齐人脸Transformer模块和优化残差特征模块；基于预训练模型输入原始图像及目标文本描述，文本对齐人脸Transformer模块对输入的目标文本描述生成的目标嵌入进行优化得到优化后嵌入，优化完成后进行模型微调；对目标嵌入和优化后嵌入进行线性插值，获得初始编辑结果，引入ArcFace‑Loss作为身份损失，通过预训练模型提取原始图像与初始编辑结果的人脸特征，计算特征相似度并最小化损失，确保编辑后人脸身份的一致性。

技术关键词

预训练模型噪声预测编辑人脸身份残差注意力机制文本生成图像人类视觉感知特征加权融合人脸特征卷积模块损失函数优化查询特征线性

一种基于扩散模型的文本编辑人脸图像属性的方法

站点导航

APP 下载