摘要
本发明涉及大语言模型技术领域,提供一种面向用户偏好导向的指令调优数据选择方法,通过预训练的大语言模型进行监督微调,获得监督微调大语言模型;构建预热偏好数据集优化监督微调大语言模型;通过基础候选模型生产验证指令的基础候选响应,通过偏好候选模型生成所述验证指令的偏好候选响应;根据评价模型进行评价,并根据评价结果构建偏好对集合;运用偏好损失函数计算偏好梯度,获得双向用户偏好梯度;对训练数据进行评分,根据评分选择训练数据集,对直接偏好大语言模型进行微调,获得优化后的大语言模型。本发明能够显著提高所选数据与目标任务的匹配度,提高指令微调模型在目标任务上的泛化能力。
技术关键词
大语言模型
指令
数据
样本
基础
损失函数优化
模拟退火算法
三元组
策略
表达式
参数
线性
系统为您推荐了相关专利信息
书写特征
可视化运动轨迹
原因检测方法
笔划
特征值
盾构机掘进参数
统计学特征
识别方法
K近邻算法
隧道
振动控制方法
高拉速连铸结晶器
曲线
表达式
加速度