大语言模型LLM的偏好对齐训练方法、电子设备及存储介质

AITNT
正文
推荐专利
大语言模型LLM的偏好对齐训练方法、电子设备及存储介质
申请号:CN202510222707
申请日期:2025-02-26
公开号:CN120069082A
公开日期:2025-05-30
类型:发明专利
摘要
本说明书一个或多个实施例提供一种大语言模型LLM的偏好对齐训练方法、电子设备及存储介质。所述训练方法包括:对待训练LLM进行多轮自迭代直接偏好优化DPO训练,并在停止条件被满足时停止训练;其中,对于正整数i,对第i‑1轮训练得到的i‑1级LLM进行第i轮训练,包括:从预设的问题库中随机选取样本问题,将所述样本问题输入所述i‑1级LLM以获取该模型生成的样本答案,并利用预设的评分模型对所述样本答案与人类偏好的对齐程度进行评分;根据所述样本答案的评分结果从所述样本问题中确定可用样本问题,并基于所述可用样本问题及其对应的可用样本答案构建训练数据;利用所述训练数据对所述i‑1级LLM进行训练以得到i级LLM。
技术关键词
答案 样本 大语言模型 正确率 人类 格式 电子设备 处理器 指令 数据 计算机程序产品 资源分配 可读存储介质 文本 基础 存储器 偏差
系统为您推荐了相关专利信息
1
用于AI系统和应用的合成数据集重新生成
参数 处理单元 资产 协作内容 模拟器
2
一种停电预警方法、装置、电子设备及存储介质
森林模型 数字孪生体 训练特征 预警方法 级联
3
一种基于证据与需求的两阶段项目级养护决策方法
决策方法 表达式 样本 项目 阶段
4
一种大语言模型的推理加速方法、装置、设备及介质
大语言模型 文本 非易失性计算机可读存储介质 逻辑回归模型 特征提取模型
5
基于加权随机森林的高速列车牵引逆变器故障诊断方法
列车牵引逆变器 随机森林模型 频域特征 故障诊断方法 绝缘栅双极晶体管
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号