摘要
本发明提出一种多模态可控人像生成方法及系统,涉及图像生成的技术领域,方法包括首先对原始人像图片进行多模态输入条件解耦,得到多模态解耦结果;然后对所述多模态解耦结果进行预处理,得到图像嵌入结果和文本嵌入结果;再将所述图像嵌入结果进行拼接,得到拼接嵌入;最后将所述拼接嵌入和所述文本嵌入结果输入至预设的人像生成网络,输出可控人像生成结果。本发明能在解耦多模态输入条件下有效提高生成图像的灵活性和精确性。
技术关键词
人像生成方法
图像嵌入
多模态
表达式
文本
图像分割网络
图片
布局
注意力
编码器
坐标
颜色
信噪比
拼接模块
矩形
生成系统
半轴
输出模块
系统为您推荐了相关专利信息
勒索病毒检测方法
大语言模型
多尺度信息
阶段
全局结构信息