摘要
本发明公开了一种基于受限偏好标识排序的偏好对齐模型训练方法,包括基于SFT数据集,构建候选偏好数据集;基于候选偏好数据集,构建受限偏好标识排序数据集;采用受限偏好标识排序数据集训练SFT模型,得到偏好对齐模型。本发明能够避免大语言模型在训练中出现不稳定、过拟合等问题,无需人工标注大量偏好数据,并且大幅度减少训练偏好对齐模型所需的算力。
技术关键词
答案
模型训练方法
标识
受限
数据
列表
大语言模型
策略
文本
指令
系统为您推荐了相关专利信息
双相不锈钢
冒口
浇注工艺
缺陷预测
训练样本数据
选配方法
综合选择指数
遗传算法
动物育种技术
矩阵
事件相机
事件流数据
噪声过滤方法
滤除噪声
滤波器
无人机
深度强化学习
决策方法
LSTM模型
预训练模型