一种基于受限偏好标识排序的偏好对齐模型训练方法

AITNT
正文
推荐专利
一种基于受限偏好标识排序的偏好对齐模型训练方法
申请号:CN202411713028
申请日期:2024-11-27
公开号:CN119202915B
公开日期:2025-04-08
类型:发明专利
摘要
本发明公开了一种基于受限偏好标识排序的偏好对齐模型训练方法,包括基于SFT数据集,构建候选偏好数据集;基于候选偏好数据集,构建受限偏好标识排序数据集;采用受限偏好标识排序数据集训练SFT模型,得到偏好对齐模型。本发明能够避免大语言模型在训练中出现不稳定、过拟合等问题,无需人工标注大量偏好数据,并且大幅度减少训练偏好对齐模型所需的算力。
技术关键词
答案 模型训练方法 标识 受限 数据 列表 大语言模型 策略 文本 指令
系统为您推荐了相关专利信息
1
一种基于缺陷预测的双相不锈钢叶轮铸造过程中冒口的设计方法
双相不锈钢 冒口 浇注工艺 缺陷预测 训练样本数据
2
一种基于全基因组SNP信息的华西牛基因组选配方法及应用
选配方法 综合选择指数 遗传算法 动物育种技术 矩阵
3
一种基于事件相机的实时噪声过滤的方法
事件相机 事件流数据 噪声过滤方法 滤除噪声 滤波器
4
一种基于态势预测的深度强化学习空战决策方法
无人机 深度强化学习 决策方法 LSTM模型 预训练模型
5
MCU的安全启动方法、存储介质
固件 解密 参数 对称加密算法 程序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号