摘要
本发明公开了一种基于语义嵌入和偏好建模的可控图像生成方法,包括以下步骤:S1:利用图文对数据集微调大语言模型;其中,所述图文对数据集包括若干三元组,每个三元组包括输入图像、指令文本和生成图像;S2:利用微调后的大语言模型和图像重建优化指令文本嵌入;S3:利用优化后的指令文本嵌入微调预训练图像生成模型;S4:利用偏好模型优化微调后的预训练图像生成模型;其中,偏好模型基于标注有排名数据的生成图像训练获得;S5:利用优化后的预训练图像生成模型,获得与待处理指令文本、待处理输入图像匹配的生成图像。通过本发明方法生成的图像更符合人类的审美和价值观,且在各种噪声条件下都能稳定地生成高质量的输入图像和指令文本相关联的图像。
技术关键词
图像生成模型
图像生成方法
文本编码器
指令
大语言模型
语义
图像匹配
三元组
sigmoid函数
图像重建
随机噪声
图文
噪声条件
输入端
线性
数据
参数
系统为您推荐了相关专利信息
储能系统
智能温控方法
策略
剩余时长
环境温度信息
资产
数据采集模块
计算机可执行指令
分类服务
企业