奖励模型的训练方法、答案评价方法和装置

正文

推荐专利

奖励模型的训练方法、答案评价方法和装置

申请号：CN202411965448

申请日期：2024-12-30

公开号：CN119849635A

公开日期：2025-04-18

类型：发明专利

摘要

本发明提供一种奖励模型的训练方法、答案评价方法和装置，涉及人工智能技术领域。其中奖励模型的训练方法包括：将原始训练样本和提示文本输入至初始奖励模型，得到初始奖励模型输出的第一推理原理和第一评分；提示文本包括推理原理生成要求文本，推理原理生成要求文本包括推理原理的生成要求信息，推理原理用于指示初始奖励模型在进行评分时需遵循的推理逻辑；基于原始训练样本、第一推理原理和第一评分，微调初始奖励模型，以得到奖励模型；其中，初始奖励模型为预训练的大语言模型。本发明可以提高奖励模型的性能，最终提高基于奖励模型强化的答案生成模型的性能，即提高答案生成模型的生成准确性。

技术关键词

答案文本评价方法样本非暂态计算机可读存储介质标签处理器人工智能技术格式计算机程序产品评价装置数据训练装置逻辑输入模块存储器电子设备

系统为您推荐了相关专利信息

基于大模型的跨模态问答处理方法、装置及存储介质

语音问答系统文本大语言模型语音编码器答案

基于NiN混合稠密残差网络的加密流量检测方法与系统

加密流量检测方法残差网络残差模块输入端输出端

一种基于Prompt的空调控制方法

空调控制方法大语言模型生成控制指令文本聚类

一种图像处理模型的训练方法、装置、设备以及介质

图像处理模型参数更新模块计算机可读指令样本训练装置

智能体唤醒时机的识别方法、装置、设备、介质及产品

意图多模态语音识别方法标志位

奖励模型的训练方法、答案评价方法和装置

站点导航

APP 下载