摘要
本发明公开了一种基于扩散模型的视频卸妆方法及装置,其包括:构建有妆‑无妆视频数据对;对无妆视频的视频帧进行人脸识别得到人脸五官信息,并基于人脸五官信息生成mask图像;对无妆视频的视频帧添加文本描述提示词;构建基于交叉注意力机制的扩散模型;将当前有妆视频帧、上一无妆视频帧、mask图像和文本描述提示词作为扩散模型的输入,经过交叉注意力计算,输出当前有妆视频帧对应的无妆视频帧,得到当前有妆视频的卸妆结果;该方法利用扩散模型的条件生成能力,通过独特设计的交叉注意力机制引入帧间依赖关系和提示控制信息,进一步优化扩散模型,提高了卸妆视频的连贯性,实现高质量的视频卸妆效果。
技术关键词
卸妆方法
交叉注意力机制
视频帧
人脸五官
文本
卷积编码器
去噪模型
噪声预测
图像重建
轮廓区域
融合策略
时序
基线
处理器
计算方法