摘要
本发明提供一种奖励模型的训练方法、答案评价方法和装置,涉及人工智能技术领域。其中奖励模型的训练方法包括:将原始训练样本和提示文本输入至初始奖励模型,得到初始奖励模型输出的第一推理原理和第一评分;提示文本包括推理原理生成要求文本,推理原理生成要求文本包括推理原理的生成要求信息,推理原理用于指示初始奖励模型在进行评分时需遵循的推理逻辑;基于原始训练样本、第一推理原理和第一评分,微调初始奖励模型,以得到奖励模型;其中,初始奖励模型为预训练的大语言模型。本发明可以提高奖励模型的性能,最终提高基于奖励模型强化的答案生成模型的性能,即提高答案生成模型的生成准确性。
技术关键词
答案
文本
评价方法
样本
非暂态计算机可读存储介质
标签
处理器
人工智能技术
格式
计算机程序产品
评价装置
数据
训练装置
逻辑
输入模块
存储器
电子设备
系统为您推荐了相关专利信息
加密流量检测方法
残差网络
残差模块
输入端
输出端
空调控制方法
大语言模型
生成控制指令
文本
聚类
图像处理模型
参数更新模块
计算机可读指令
样本
训练装置