奖励模型训练方法、问题评估方法、电子设备及存储介质

正文

推荐专利

申请号：CN202510592452

申请日期：2025-05-08

公开号：CN120723859A

公开日期：2025-09-30

类型：发明专利

摘要

本申请公开了奖励模型训练方法、问题评估方法、电子设备及存储介质，涉及大模型技术领域，该奖励模型训练方法包括：获取样本数据集以及目标提示词，样本数据集包括一个或多个文本样本；将目标提示词以及样本数据集输入至第一问题生成模型，生成各个文本样本对应的第一问题；将目标提示词以及样本数据集输入至第二问题生成模型，生成各个文本样本对应的第二问题；其中，第一问题生成模型的问题生成能力优于第二问题生成模型的问题生成能力；基于文本样本、目标提示词、第一问题以及第二问题，构造对比数据；基于对比数据对预设奖励模型进行对比学习，得到目标奖励模型；其中，目标奖励模型用于评估问题质量。本申请能够解决问题的质量评估问题。

技术关键词

模型训练方法文本样本数据语义计算机逻辑电子设备可读存储介质存储器处理器指令主题关键词参数

系统为您推荐了相关专利信息

一种油棕种植区域的识别方法及显示方法

微波遥感影像种植区识别方法多光谱随机森林模型

基于长链非编码RNA多组学整合分析的因子分析系统

编码无监督跨模态数据特异性表达模式富集

多体制信号生成方法及装置

信号生成方法信号生成装置生成控制指令信号控制模块生成指令

一种企业预警模型的训练方法及装置

预警模型企业指标参数样本

一种具有故障诊断功能的电机冷却控制系统

电机冷却控制系统故障诊断功能预测系统故障故障诊断模块水泵控制器

奖励模型训练方法、问题评估方法、电子设备及存储介质

站点导航

APP 下载