一种基于奖励排序的生成模型训练方法及系统

AITNT
正文
推荐专利
一种基于奖励排序的生成模型训练方法及系统
申请号:CN202510460982
申请日期:2025-04-14
公开号:CN120495464A
公开日期:2025-08-15
类型:发明专利
摘要
本申请公开了一种基于奖励排序的生成模型训练方法及系统,方法包括:基于当前图文生成模型对目标数据集进行生成响应,构建提示样本的三元组数据集合;基于提示文本的奖励信息,对提示样本的三元组数据集合进行选取,得到目标提示样本的三元组数据集合;根据目标提示样本的三元组数据集合对当前图文生成模型进行迭代训练并进行监督微调,直至满足预设迭代终止条件,得到符合人类偏好的图文生成模型。本申请实施例能够将样本生成和模型训练分离,样本生成不需要计算梯度,并减少了模型训练的计算量。本申请可以广泛应用于人工智能技术领域。
技术关键词
三元组 图文 生成模型训练方法 样本 文本 数据 表达式 模型训练系统 人类 人工智能技术 多层感知机 超参数 编码器 模块 批量
系统为您推荐了相关专利信息
1
基于SDTM标准的医学临床数据标准化转换方法和装置
文本生成模型 转换方法 医学 电子数据采集系统 变量
2
一种智能引导办件方法、装置、电子设备及存储介质
业务办理系统 大语言模型 业务管理平台 机器人交互系统 数据格式
3
基于大语言模型的语音识别方法及系统
文本 韵律预测 语音识别方法 大语言模型 计算机可执行指令
4
一种船载扫海灯结构时变可靠性分析方法
可靠性分析方法 样本 海浪 Kriging模型 伺服结构
5
一种基于机器学习的信息校验方法、设备及可读存储介质
信息校验方法 客服 自动语音识别技术 文本 音频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号