摘要
本发明提供了一种图像生成模型训练方法及相关设备,所述方法包括:基于获取的多个行人图像生成第一文本提示和RGBA语义图,第一文本提示中添加有第一行人的身份ID标签;基于构建的训练数据对预设模型进行迭代训练,得到图像生成模型,训练数据包括行人图像、第一文本提示和RGBA语义图组成的第一样本对,图像生成模型用于根据目标对象的输入图像生成目标对象多视角的输出图像。不同场景和视角下的行人图像具有更好的泛化能力,在实际应用中表现更加稳定和可靠,能够生成高质量的目标对象多视角输出图像。
技术关键词
图像生成模型
ID标签
文本
多视角
语义
红绿蓝
对象
距离信息
透明度
数据
可读存储介质
计算机程序产品
色彩
身份
训练装置
处理器通信
系统为您推荐了相关专利信息
语音对话设备
信噪比估计值
语音识别模块
图谱特征
降噪模块
动态场景视频
高保真视频
生成方法
深度特征提取
生成视频序列
代码结构
大语言模型
多模态
生成代码
文本编码器
钢结构桥梁
图像块
语义分割方法
语义分割算法
图片