摘要
本申请公开了一种基于奖励排序的生成模型训练方法及系统,方法包括:基于当前图文生成模型对目标数据集进行生成响应,构建提示样本的三元组数据集合;基于提示文本的奖励信息,对提示样本的三元组数据集合进行选取,得到目标提示样本的三元组数据集合;根据目标提示样本的三元组数据集合对当前图文生成模型进行迭代训练并进行监督微调,直至满足预设迭代终止条件,得到符合人类偏好的图文生成模型。本申请实施例能够将样本生成和模型训练分离,样本生成不需要计算梯度,并减少了模型训练的计算量。本申请可以广泛应用于人工智能技术领域。
技术关键词
三元组
图文
生成模型训练方法
样本
文本
数据
表达式
模型训练系统
人类
人工智能技术
多层感知机
超参数
编码器
模块
批量
系统为您推荐了相关专利信息
文本生成模型
转换方法
医学
电子数据采集系统
变量
业务办理系统
大语言模型
业务管理平台
机器人交互系统
数据格式
文本
韵律预测
语音识别方法
大语言模型
计算机可执行指令
可靠性分析方法
样本
海浪
Kriging模型
伺服结构