奖励模型训练方法、问题评估方法、电子设备及存储介质

AITNT
正文
推荐专利
奖励模型训练方法、问题评估方法、电子设备及存储介质
申请号:CN202510592452
申请日期:2025-05-08
公开号:CN120723859A
公开日期:2025-09-30
类型:发明专利
摘要
本申请公开了奖励模型训练方法、问题评估方法、电子设备及存储介质,涉及大模型技术领域,该奖励模型训练方法包括:获取样本数据集以及目标提示词,样本数据集包括一个或多个文本样本;将目标提示词以及样本数据集输入至第一问题生成模型,生成各个文本样本对应的第一问题;将目标提示词以及样本数据集输入至第二问题生成模型,生成各个文本样本对应的第二问题;其中,第一问题生成模型的问题生成能力优于第二问题生成模型的问题生成能力;基于文本样本、目标提示词、第一问题以及第二问题,构造对比数据;基于对比数据对预设奖励模型进行对比学习,得到目标奖励模型;其中,目标奖励模型用于评估问题质量。本申请能够解决问题的质量评估问题。
技术关键词
模型训练方法 文本 样本 数据 语义 计算机 逻辑 电子设备 可读存储介质 存储器 处理器 指令 主题 关键词 参数
系统为您推荐了相关专利信息
1
一种油棕种植区域的识别方法及显示方法
微波遥感影像 种植区 识别方法 多光谱 随机森林模型
2
基于长链非编码RNA多组学整合分析的因子分析系统
编码 无监督 跨模态数据 特异性表达模式 富集
3
多体制信号生成方法及装置
信号生成方法 信号生成装置 生成控制指令 信号控制模块 生成指令
4
一种企业预警模型的训练方法及装置
预警模型 企业 指标 参数 样本
5
一种具有故障诊断功能的电机冷却控制系统
电机冷却控制系统 故障诊断功能 预测系统故障 故障诊断模块 水泵控制器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号