摘要
本发明提出一种基于扩散模型的文本编辑人脸图像属性的方法,实现高质量且保持身份一致性的灵活面部编辑。步骤包括:构建描述控制人脸扩散模型包括噪声预测网络和变分自编码器,噪声预测网络包括多个文本对齐人脸Transformer模块和优化残差特征模块;基于预训练模型输入原始图像及目标文本描述,文本对齐人脸Transformer模块对输入的目标文本描述生成的目标嵌入进行优化得到优化后嵌入,优化完成后进行模型微调;对目标嵌入和优化后嵌入进行线性插值,获得初始编辑结果,引入ArcFace‑Loss作为身份损失,通过预训练模型提取原始图像与初始编辑结果的人脸特征,计算特征相似度并最小化损失,确保编辑后人脸身份的一致性。
技术关键词
预训练模型
噪声预测
编辑
人脸身份
残差注意力机制
文本生成图像
人类视觉感知
特征加权融合
人脸特征
卷积模块
损失函数优化
查询特征
线性