摘要
本发明涉及一种基于半人工的图像人类偏好数据获取的方法,包括以下步骤:S1:获取数据;S2:基于获取的数据,进行优化扩展;S3:利用大语言模型对图像数据及提示语进行改写、扩展和增强;S4:将经过大语言模型处理的提示语作为输入,采用多个不同的文本到图像生成模型以生成图像;S5:利用视觉语言模型对图像和对应的文本提示语进行分析,并计算图像和对应的文本提示语的匹配程度;S6:通过多模态大语言模型对图像评估进行优化;S7:让标注员在两个候选图像之间选择更符合描述的图像,构建成对比偏好数据。本发明可以高效、准确地构建大规模、高质量的偏好数据集,从而优化图像生成模型对人类审美和语义偏好的适应能力。
技术关键词
大语言模型
图像生成模型
图像评估
文本
人类
代表训练数据
多模态
视觉
参数
美学
语义
种子
因子
企业
基础
系统为您推荐了相关专利信息
邮件
随机森林模型
检测数据输入
统一资源定位
存储器
QT框架
全键盘组件
调用虚拟键盘
数字键盘
动态库文件