大语言模型对齐方法、装置、电子设备及可读存储介质

正文

推荐专利

申请号：CN202411461656

申请日期：2024-10-18

公开号：CN119513306A

公开日期：2025-02-25

类型：发明专利

摘要

本公开提供一种大语言模型对齐方法、装置、电子设备及可读存储介质，涉及机器学习技术领域。所述方法包括：获取待对齐的大语言模型对应的初始偏好数据集；基于多个所述初始偏好数据集的子集，训练得到每个所述初始偏好数据集的子集对应的奖励模型；确定所述奖励模型中的降噪模型；基于所述降噪模型将所述初始偏好数据集划分为高噪声偏好数据集及低噪声偏好数据集；确定所述高噪声偏好数据集对应的第一损失函数，以及所述低噪声偏好数据集对应的第二损失函数，并基于所述第一损失函数及所述第二损失函数优化所述奖励模型；基于优化后的奖励模型对所述待对齐的大语言模型进行对齐训练。本公开有效降低了噪声数据对奖励模型训练的影响。

技术关键词

降噪模型对齐方法损失函数优化低噪声大语言模型梯度下降算法噪声数据机器学习技术电子设备平滑算法对齐装置计算机数据采集模块估计算法人类处理器指令

系统为您推荐了相关专利信息

一种测量一次侧电流的交流量子电流互感器及方法

补偿磁场磁通信号处理终端互感器低噪声放大器

在线文档系统的自动部署方法、设备及存储介质

网页系统在线自动部署方法标记语言文件结构化界面

时间序列数据对齐方法、装置、设备及介质

基因表达数据数据对齐方法文本时序预训练语言模型

基于大模型和知识图谱的长输管网供热系统自动驾驶平台

供热系统长输管网大语言模型数字孪生模型图谱

一种基于轻量级yolov8的子宫内膜炎症分类识别方法及系统

子宫内膜炎症宫腔镜知识蒸馏技术分类识别方法模态特征

大语言模型对齐方法、装置、电子设备及可读存储介质

站点导航

APP 下载