结合人类偏好与可验证正确性信号的可靠奖励评价方法及装置

正文

推荐专利

申请号：CN202510212277

申请日期：2025-02-25

公开号：CN120104749A

公开日期：2025-06-06

类型：发明专利

摘要

本申请提供一种结合人类偏好与可验证正确性信号的可靠奖励评价方法及装置，涉及人工智能技术领域，该方法包括：将待评价模型响应分别输入到基础奖励模型和可验证正确性信号奖励模型中，得到每个模型输出的奖励评分；基于每个模型输出的奖励评分以及每个模型的权重进行加权求和，得到针对待评价模型响应的最终奖励评分；基础奖励模型用于表征人类对模型响应的偏好评分；可验证正确性信号奖励模型用于表征模型响应在特定方面的正确性。本申请提供的结合人类偏好与可验证正确性信号的可靠奖励评价方法，不仅能够考虑人类偏好，还能综合考虑模型响应的事实性和指令遵循等可验证的正确性信号，从而提供更准确、可靠的奖励。

技术关键词

评价方法自然语言模型人类路由器信号指令基础人工智能技术评价装置处理器脚本可读存储介质存储器电子设备模块计算机程序

系统为您推荐了相关专利信息

汽车中控屏操作便利性评价方法、装置、设备及介质

主驾座椅汽车中控屏评价方法位姿可调布局优化方法

储能电源及其硬件通讯电路

数字电位器主控芯片 USB控制电路通讯电路控制芯片

封装结构

电容组件封装结构堆叠结构转接板芯片互联结构

冰柜玻璃门智能除霜控制器及玻璃门

冰柜玻璃门智能除霜双位电源开关冰柜门体驱动芯片

一种基于变频驱动的采掘装备装运自适应控制方法

采掘装备 PID算法控制装载设备运输设备变频控制器

结合人类偏好与可验证正确性信号的可靠奖励评价方法及装置

站点导航

APP 下载