摘要
本发明公开了一种生成图像多维人类偏好评估方法与系统,涉及生成图像评估技术领域,所述方法包括:步骤1、构建包含生成图像的预训练数据集和包含生成图像‑文本提示对的训练集;步骤2、通过预训练神经网络提取生成图像的层级特征:使用Visual Transformer B‑16骨干网络输出12层特征序列,再通过12个多层感知机将特征映射为;步骤3、将预训练模型嵌入多维人类偏好评估神经网络并冻结参数;步骤4、用训练集中的生成图像‑文本提示对多维人类偏好评估神经网络进行多轮网络训练,得到评估神经网络训练模型,再使用评估神经网络训练模型对生成图像‑文本提示对进行预测,得到生成图像‑文本提示对的质量分数、真实性分数和一致性分数。
技术关键词
偏好评估方法
神经网络训练
分支
多层感知机
文本
训练神经网络模型
人类
融合图像特征
线性
语义特征
图像评估技术
输出特征
权重特征
通用特征
优化神经网络
模块
视觉
系统为您推荐了相关专利信息
GNSS数据
多模态传感器
修复方法
多层感知机
重构误差
图像生成网络
人脸特征
注意力机制
转换方法
分支
测试终端
终端测试方法
数据处理模型
协议
服务器