基于多模态控制的可控人物图像生成方法、系统及产品

AITNT
正文
推荐专利
基于多模态控制的可控人物图像生成方法、系统及产品
申请号:CN202510665628
申请日期:2025-05-22
公开号:CN120635230A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种基于多模态控制的可控人物图像生成方法、系统及产品,首先获取多模态输入数据,包括文本数据、姿势图像数据和外观图像数据;然后将模态输入数据转换为特征嵌入,通过跨模态注意力机制,将这些不同模态的条件信息结合,分别生成统一的姿势条件嵌入和统一的外观条件嵌入;接着将姿势条件嵌入和外观条件嵌入输入基于transformer的潜在扩散模型中进行推理,获得空间特征;最后将获得的空间特征通过VAE解码器生成最终图像。本发明将多模态输入和潜伏扩散模型的结合,实现了在复杂条件下的对生成图像的精确控制,能够生成高质量、符合用户需求的人物图像,极大地扩大了人物图像生成技术在虚拟试穿、数字内容创作和娱乐等领域的适用范围。
技术关键词
人物图像生成方法 多模态 文本编码器 图像编码器 编码模块 全局平均池化 计算机程序指令 堆叠模块 姿势控制 数据 特征提取模块 图像生成技术 图像生成系统 噪声预测器 注意力机制 优化网络参数
系统为您推荐了相关专利信息
1
基于AI大模型的新生儿重症管理系统、系统和电子设备
健康管理模型 大语言模型 个性化健康建议 生命体征数据 模型训练模块
2
超高时空分辨率多维管网监测与智能诊断系统
智能诊断系统 微型传感器阵列 融合卷积神经网络 进化算法 分辨率
3
一种眼表图像的分割方法、装置及眼表分析仪
注意力 分割方法 多视角 融合特征 编码器
4
基于动态示例引导与领域知识增强的多模态领域适应情感分析方法、系统
情感分析方法 文本 动态 样本 非暂态计算机可读存储介质
5
一种基于视觉融合的低空无人机识别与反制方法及系统
低空无人机识别 反制方法 多模块 融合特征 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号