摘要
本发明公开了直接偏好优化模型构建方法、装置、电子设备及存储介质,所述方法包括:所述直接偏好优化模型构建方法包括:获取微调的初始模型;为所述初始模型选用uDPO框架并设置uDPO的超参数,得到目标函数;根据所述目标函数生成目标模型。通过构建uDPO框架,在uDPO中引入新的超参数,实现了对数据对可靠性的细粒度控制,从而在噪声环境下提供了更加平衡的探索与利用策略。其次,uDPO在保持DPO对点噪声固有鲁棒性的同时,通过优化最坏成对场景,显著提升了模型对抗成对噪声的能力,相较于DPO无论是在噪声还是无噪声的数据集上,均能实现性能的显著提升,具有DPO对抗点噪声的能力的同时具有对抗成对噪声的能力。
技术关键词
模型构建方法
无噪声
框架
非暂态计算机可读存储介质
数据噪声
三元组
拉格朗日
模型构建装置
电子设备
表达式
处理器
超参数
存储器
鲁棒性
因子
样本
模块
系统为您推荐了相关专利信息
图片
修正方法
重力传感器
人物轮廓
信息完整性校验
车辆主动悬架系统
性能优化设计方法
参数
优化控制系统
等价输入干扰
查询特征
时序特征
语义特征
问答方法
意图识别模型
XGBoost模型
异常数据处理
水文
异常数据点
门控循环单元
预测模型构建方法
单细胞转录组
肿瘤微环境
转录组测序技术
免疫疗法