摘要
本发明公开了一种基于直接偏好优化的模型偏好对齐方法及装置,所述基于直接偏好优化的模型偏好对齐方法包括:获取数据,数据包括偏好数据集,利用偏好数据集的有监督微调初始化模型,并获取模型收敛状态;根据模型收敛状态从偏好数据集中采样一个批量并计算个体奖励差异;根据个体奖励差异从所述偏好数据集进行样本采样,计算批量级别的超参数;根据批量级别的超参数利用DPO损失函数计算损失并利用梯度更新算法更新模型。本发明中通过动态校准值,并结合数据质量考虑,优化了DPO的性能。此外,还引入了引导的数据过滤方法,以减少异常值对模型训练的影响,在多种模型和数据集上显著提高了DPO的性能。
技术关键词
对齐方法
批量
超参数
三元组
样本
非暂态计算机可读存储介质
数据过滤方法
人类
算法
对齐装置
处理器
模型更新
过滤模块
校准
规模
存储器
基准
代表