摘要
本申请公开了奖励模型训练方法、问题评估方法、电子设备及存储介质,涉及大模型技术领域,该奖励模型训练方法包括:获取样本数据集以及目标提示词,样本数据集包括一个或多个文本样本;将目标提示词以及样本数据集输入至第一问题生成模型,生成各个文本样本对应的第一问题;将目标提示词以及样本数据集输入至第二问题生成模型,生成各个文本样本对应的第二问题;其中,第一问题生成模型的问题生成能力优于第二问题生成模型的问题生成能力;基于文本样本、目标提示词、第一问题以及第二问题,构造对比数据;基于对比数据对预设奖励模型进行对比学习,得到目标奖励模型;其中,目标奖励模型用于评估问题质量。本申请能够解决问题的质量评估问题。
技术关键词
模型训练方法
文本
样本
数据
语义
计算机
逻辑
电子设备
可读存储介质
存储器
处理器
指令
主题
关键词
参数
系统为您推荐了相关专利信息
微波遥感影像
种植区
识别方法
多光谱
随机森林模型
信号生成方法
信号生成装置
生成控制指令
信号控制模块
生成指令
电机冷却控制系统
故障诊断功能
预测系统故障
故障诊断模块
水泵控制器