一种基于奖励排序的生成模型训练方法及系统

正文

推荐专利

申请号：CN202510460982

申请日期：2025-04-14

公开号：CN120495464A

公开日期：2025-08-15

类型：发明专利

摘要

本申请公开了一种基于奖励排序的生成模型训练方法及系统，方法包括：基于当前图文生成模型对目标数据集进行生成响应，构建提示样本的三元组数据集合；基于提示文本的奖励信息，对提示样本的三元组数据集合进行选取，得到目标提示样本的三元组数据集合；根据目标提示样本的三元组数据集合对当前图文生成模型进行迭代训练并进行监督微调，直至满足预设迭代终止条件，得到符合人类偏好的图文生成模型。本申请实施例能够将样本生成和模型训练分离，样本生成不需要计算梯度，并减少了模型训练的计算量。本申请可以广泛应用于人工智能技术领域。

技术关键词

三元组图文生成模型训练方法样本文本数据表达式模型训练系统人类人工智能技术多层感知机超参数编码器模块批量

系统为您推荐了相关专利信息

基于SDTM标准的医学临床数据标准化转换方法和装置

文本生成模型转换方法医学电子数据采集系统变量

一种智能引导办件方法、装置、电子设备及存储介质

业务办理系统大语言模型业务管理平台机器人交互系统数据格式

基于大语言模型的语音识别方法及系统

文本韵律预测语音识别方法大语言模型计算机可执行指令

一种船载扫海灯结构时变可靠性分析方法

可靠性分析方法样本海浪 Kriging模型伺服结构

一种基于机器学习的信息校验方法、设备及可读存储介质

信息校验方法客服自动语音识别技术文本音频

一种基于奖励排序的生成模型训练方法及系统

站点导航

APP 下载