大语言模型LLM的偏好对齐训练方法、电子设备及存储介质

正文

推荐专利

申请号：CN202510222707

申请日期：2025-02-26

公开号：CN120069082A

公开日期：2025-05-30

类型：发明专利

摘要

本说明书一个或多个实施例提供一种大语言模型LLM的偏好对齐训练方法、电子设备及存储介质。所述训练方法包括：对待训练LLM进行多轮自迭代直接偏好优化DPO训练，并在停止条件被满足时停止训练；其中，对于正整数i，对第i‑1轮训练得到的i‑1级LLM进行第i轮训练，包括：从预设的问题库中随机选取样本问题，将所述样本问题输入所述i‑1级LLM以获取该模型生成的样本答案，并利用预设的评分模型对所述样本答案与人类偏好的对齐程度进行评分；根据所述样本答案的评分结果从所述样本问题中确定可用样本问题，并基于所述可用样本问题及其对应的可用样本答案构建训练数据；利用所述训练数据对所述i‑1级LLM进行训练以得到i级LLM。

技术关键词

答案样本大语言模型正确率人类格式电子设备处理器指令数据计算机程序产品资源分配可读存储介质文本基础存储器偏差

系统为您推荐了相关专利信息

用于AI系统和应用的合成数据集重新生成

参数处理单元资产协作内容模拟器

一种停电预警方法、装置、电子设备及存储介质

森林模型数字孪生体训练特征预警方法级联

一种基于证据与需求的两阶段项目级养护决策方法

决策方法表达式样本项目阶段

一种大语言模型的推理加速方法、装置、设备及介质

大语言模型文本非易失性计算机可读存储介质逻辑回归模型特征提取模型

基于加权随机森林的高速列车牵引逆变器故障诊断方法

列车牵引逆变器随机森林模型频域特征故障诊断方法绝缘栅双极晶体管

大语言模型LLM的偏好对齐训练方法、电子设备及存储介质

站点导航

APP 下载