摘要
本说明书一个或多个实施例提供一种大语言模型LLM的偏好对齐训练方法、电子设备及存储介质。所述训练方法包括:对待训练LLM进行多轮自迭代直接偏好优化DPO训练,并在停止条件被满足时停止训练;其中,对于正整数i,对第i‑1轮训练得到的i‑1级LLM进行第i轮训练,包括:从预设的问题库中随机选取样本问题,将所述样本问题输入所述i‑1级LLM以获取该模型生成的样本答案,并利用预设的评分模型对所述样本答案与人类偏好的对齐程度进行评分;根据所述样本答案的评分结果从所述样本问题中确定可用样本问题,并基于所述可用样本问题及其对应的可用样本答案构建训练数据;利用所述训练数据对所述i‑1级LLM进行训练以得到i级LLM。
技术关键词
答案
样本
大语言模型
正确率
人类
格式
电子设备
处理器
指令
数据
计算机程序产品
资源分配
可读存储介质
文本
基础
存储器
偏差
系统为您推荐了相关专利信息
大语言模型
文本
非易失性计算机可读存储介质
逻辑回归模型
特征提取模型
列车牵引逆变器
随机森林模型
频域特征
故障诊断方法
绝缘栅双极晶体管