一种基于受限偏好标识排序的偏好对齐模型训练方法

正文

推荐专利

申请号：CN202411713028

申请日期：2024-11-27

公开号：CN119202915B

公开日期：2025-04-08

类型：发明专利

摘要

本发明公开了一种基于受限偏好标识排序的偏好对齐模型训练方法，包括基于SFT数据集，构建候选偏好数据集；基于候选偏好数据集，构建受限偏好标识排序数据集；采用受限偏好标识排序数据集训练SFT模型，得到偏好对齐模型。本发明能够避免大语言模型在训练中出现不稳定、过拟合等问题，无需人工标注大量偏好数据，并且大幅度减少训练偏好对齐模型所需的算力。

技术关键词

答案模型训练方法标识受限数据列表大语言模型策略文本指令

系统为您推荐了相关专利信息

一种基于缺陷预测的双相不锈钢叶轮铸造过程中冒口的设计方法

双相不锈钢冒口浇注工艺缺陷预测训练样本数据

一种基于全基因组SNP信息的华西牛基因组选配方法及应用

选配方法综合选择指数遗传算法动物育种技术矩阵

一种基于事件相机的实时噪声过滤的方法

事件相机事件流数据噪声过滤方法滤除噪声滤波器

一种基于态势预测的深度强化学习空战决策方法

无人机深度强化学习决策方法 LSTM模型预训练模型

MCU的安全启动方法、存储介质

固件解密参数对称加密算法程序

一种基于受限偏好标识排序的偏好对齐模型训练方法

站点导航

APP 下载