摘要
本公开提供了一种偏好学习方法,可以应用于人工智能技术领域。该偏好学习方法包括:从大模型预训练的文本文档中,确定与预设标准相匹配的样本问题,其中,预设标准中包括正向标准和反向标准,样本问题用于表征用户与大模型交互时所产生的问题;将多个样本问题输入大模型中,以根据大模型输出的与每个样本问题对应的答案,生成多个问答对;利用多个评估模型,基于正向标准分别对每个问答对中的答案进行评估,得到与每个问答对对应的评估标签;利用基于评估标签生成的偏好数据,对大模型进行训练,得到与正向标准对齐的目标模型。本公开还提供了一种模型应用方法、偏好学习装置、设备、存储介质和程序产品。
技术关键词
答案
模型预训练
样本
标签
学习方法
学习装置
多模型
模型训练模块
人工智能技术
计算机程序产品
处理器
数据
指令
可读存储介质
电子设备
存储器
关系
系统为您推荐了相关专利信息
识别方法
标签训练集
半监督学习
轮廓提取
感兴趣
寄生参数提取
分布式训练方法
训练样本数据
模型更新
互连线
径流
地表水
短波红外波段
反射率差异
历史数据查询