摘要
本发明公开了基于可控图像扩散模型的真实场景下视频虚拟试衣框架,包括:数据预处理模块:用于构建人物和衣服的特征表达;单阶段图像试衣网络:用于基于预处理后的数据生成虚拟试衣图像,并使用交叉注意力机制进行衣服的隐式变形和融合;扩散引导模块:用于增强生成视频的时序一致性,引入自监督模型Video MAE和自监督图像模型DINO‑V2,自监督模型Video MAE将视频进行掩码,通过帧间信息重建出完整的视频;长视频生成模块:用于生成长视频并保持视频的一致性,通过将完整视频拆分为多个短视频片段,并使用时序共同降噪策略减少片段连接处的抖动。本发明设计扩散引导模块,通过自监督学习实现高效时序一致的视频虚拟试衣,具备遮挡处理优和长视频生成稳定等优点。
技术关键词
虚拟试衣
特征提取单元
图像
交叉注意力机制
衣服特征
人物特征
短视频
场景
框架
时序
裁剪衣服
噪声预测
模块
序列
阶段
网络
解码器
系统为您推荐了相关专利信息
情绪状态信息
会议纪要记录方法
音频
视频
多媒体
多模态情绪
情绪特征
数据
情绪识别模型
分布式麦克风阵列
参数
水稻整精米率
果皮
数值优化算法
突变体植株