一种面向用户偏好导向的指令调优数据选择方法

正文

推荐专利

申请号：CN202510679407

申请日期：2025-05-26

公开号：CN120197712A

公开日期：2025-06-24

类型：发明专利

摘要

本发明涉及大语言模型技术领域，提供一种面向用户偏好导向的指令调优数据选择方法，通过预训练的大语言模型进行监督微调，获得监督微调大语言模型；构建预热偏好数据集优化监督微调大语言模型；通过基础候选模型生产验证指令的基础候选响应，通过偏好候选模型生成所述验证指令的偏好候选响应；根据评价模型进行评价，并根据评价结果构建偏好对集合；运用偏好损失函数计算偏好梯度，获得双向用户偏好梯度；对训练数据进行评分，根据评分选择训练数据集，对直接偏好大语言模型进行微调，获得优化后的大语言模型。本发明能够显著提高所选数据与目标任务的匹配度，提高指令微调模型在目标任务上的泛化能力。

技术关键词

大语言模型指令数据样本基础损失函数优化模拟退火算法三元组策略表达式参数线性

系统为您推荐了相关专利信息

一种基于模糊函数的电力作业违章信息识别方法和系统

模糊函数信息识别方法动态规划算法电力索引

基于轻量级卷积网络的点阵笔丢笔划原因检测方法和系统

书写特征可视化运动轨迹原因检测方法笔划特征值

一种基于盾构机掘进参数机器学习的隧道地层识别方法

盾构机掘进参数统计学特征识别方法 K近邻算法隧道

一种适用于高拉速连铸的结晶器振动控制方法及应用

振动控制方法高拉速连铸结晶器曲线表达式加速度

一种硫化机的硫化压力控制方法及系统

硫化机压力控制方法指数 PID控制器数据

一种面向用户偏好导向的指令调优数据选择方法

站点导航

APP 下载