摘要
本说明书实施例针对大模型的多目标对齐训练,跳出对大模型训练方法改进的思路,从训练数据上进行改进。根据一个实施方式,基于各个业务目标的偏好样本集,对偏好样本基于提示信息进行扩展和筛选,在扩展得到的候选响应中,筛选出满足奖励一致性的候选数据对,单个候选数据对包括候选正例和候选负例,奖励一致性是指候选正例在各个业务目标上的奖励均大于候选负例在相应业务目标的奖励,然后,对于满足奖励一致性的候选数据对,再根据候选正例和候选负例在业务目标k上的奖励差,从各个候选数据对中选择目标数据对,与相应的提示信息一起构建目标样本。如此,可以为多目标对齐提供一种更为高效和稳定的解决方案。
技术关键词
数据
样本
模型训练方法
周期
扩展单元
编码向量
过滤单元
参数
计算机
可读存储介质
存储器
处理器
思路
序列
系统为您推荐了相关专利信息
可编程锁相环
全局时钟
发送电路
缓冲器
延时模块
双边吸奶器
环境监测数据
决策
控制策略
误差系数
热管理策略
散热策略
电池管理系统
温度传感单元
云端数据处理