基于多模态控制的可控人物图像生成方法、系统及产品

正文

推荐专利

申请号：CN202510665628

申请日期：2025-05-22

公开号：CN120635230A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种基于多模态控制的可控人物图像生成方法、系统及产品，首先获取多模态输入数据，包括文本数据、姿势图像数据和外观图像数据；然后将模态输入数据转换为特征嵌入，通过跨模态注意力机制，将这些不同模态的条件信息结合，分别生成统一的姿势条件嵌入和统一的外观条件嵌入；接着将姿势条件嵌入和外观条件嵌入输入基于transformer的潜在扩散模型中进行推理，获得空间特征；最后将获得的空间特征通过VAE解码器生成最终图像。本发明将多模态输入和潜伏扩散模型的结合，实现了在复杂条件下的对生成图像的精确控制，能够生成高质量、符合用户需求的人物图像，极大地扩大了人物图像生成技术在虚拟试穿、数字内容创作和娱乐等领域的适用范围。

技术关键词

人物图像生成方法多模态文本编码器图像编码器编码模块全局平均池化计算机程序指令堆叠模块姿势控制数据特征提取模块图像生成技术图像生成系统噪声预测器注意力机制优化网络参数

系统为您推荐了相关专利信息

基于AI大模型的新生儿重症管理系统、系统和电子设备

健康管理模型大语言模型个性化健康建议生命体征数据模型训练模块

超高时空分辨率多维管网监测与智能诊断系统

智能诊断系统微型传感器阵列融合卷积神经网络进化算法分辨率

一种眼表图像的分割方法、装置及眼表分析仪

注意力分割方法多视角融合特征编码器

基于动态示例引导与领域知识增强的多模态领域适应情感分析方法、系统

情感分析方法文本动态样本非暂态计算机可读存储介质

一种基于视觉融合的低空无人机识别与反制方法及系统

低空无人机识别反制方法多模块融合特征多模态

基于多模态控制的可控人物图像生成方法、系统及产品

站点导航

APP 下载