摘要
本发明公开了一种基于多模态控制的可控人物图像生成方法、系统及产品,首先获取多模态输入数据,包括文本数据、姿势图像数据和外观图像数据;然后将模态输入数据转换为特征嵌入,通过跨模态注意力机制,将这些不同模态的条件信息结合,分别生成统一的姿势条件嵌入和统一的外观条件嵌入;接着将姿势条件嵌入和外观条件嵌入输入基于transformer的潜在扩散模型中进行推理,获得空间特征;最后将获得的空间特征通过VAE解码器生成最终图像。本发明将多模态输入和潜伏扩散模型的结合,实现了在复杂条件下的对生成图像的精确控制,能够生成高质量、符合用户需求的人物图像,极大地扩大了人物图像生成技术在虚拟试穿、数字内容创作和娱乐等领域的适用范围。
技术关键词
人物图像生成方法
多模态
文本编码器
图像编码器
编码模块
全局平均池化
计算机程序指令
堆叠模块
姿势控制
数据
特征提取模块
图像生成技术
图像生成系统
噪声预测器
注意力机制
优化网络参数
系统为您推荐了相关专利信息
健康管理模型
大语言模型
个性化健康建议
生命体征数据
模型训练模块
智能诊断系统
微型传感器阵列
融合卷积神经网络
进化算法
分辨率
情感分析方法
文本
动态
样本
非暂态计算机可读存储介质
低空无人机识别
反制方法
多模块
融合特征
多模态