对大模型进行多目标对齐训练的样本确定方法及装置

正文

推荐专利

申请号：CN202510337642

申请日期：2025-03-20

公开号：CN120258138A

公开日期：2025-07-04

类型：发明专利

摘要

本说明书实施例针对大模型的多目标对齐训练，跳出对大模型训练方法改进的思路，从训练数据上进行改进。根据一个实施方式，基于各个业务目标的偏好样本集，对偏好样本基于提示信息进行扩展和筛选，在扩展得到的候选响应中，筛选出满足奖励一致性的候选数据对，单个候选数据对包括候选正例和候选负例，奖励一致性是指候选正例在各个业务目标上的奖励均大于候选负例在相应业务目标的奖励，然后，对于满足奖励一致性的候选数据对，再根据候选正例和候选负例在业务目标k上的奖励差，从各个候选数据对中选择目标数据对，与相应的提示信息一起构建目标样本。如此，可以为多目标对齐提供一种更为高效和稳定的解决方案。

技术关键词

数据样本模型训练方法周期扩展单元编码向量过滤单元参数计算机可读存储介质存储器处理器思路序列

系统为您推荐了相关专利信息

领域级智能体系统构建方法和系统及智能问答方法和系统

智能体系统智能问答方法生成智能语义指令

跨BANK传输的LVDS接收电路及LVDS发送电路

可编程锁相环全局时钟发送电路缓冲器延时模块

基于单泵多阀系统的双边吸奶器控制方法

双边吸奶器环境监测数据决策控制策略误差系数

一种基于自适应热管理的电池管理系统

热管理策略散热策略电池管理系统温度传感单元云端数据处理

基于零样本难度感知的大语言模型路由方法、装置和设备

大语言模型样本数据语义特征嵌入特征

对大模型进行多目标对齐训练的样本确定方法及装置

站点导航

APP 下载