摘要
本申请提供一种结合人类偏好与可验证正确性信号的可靠奖励评价方法及装置,涉及人工智能技术领域,该方法包括:将待评价模型响应分别输入到基础奖励模型和可验证正确性信号奖励模型中,得到每个模型输出的奖励评分;基于每个模型输出的奖励评分以及每个模型的权重进行加权求和,得到针对待评价模型响应的最终奖励评分;基础奖励模型用于表征人类对模型响应的偏好评分;可验证正确性信号奖励模型用于表征模型响应在特定方面的正确性。本申请提供的结合人类偏好与可验证正确性信号的可靠奖励评价方法,不仅能够考虑人类偏好,还能综合考虑模型响应的事实性和指令遵循等可验证的正确性信号,从而提供更准确、可靠的奖励。
技术关键词
评价方法
自然语言模型
人类
路由器
信号
指令
基础
人工智能技术
评价装置
处理器
脚本
可读存储介质
存储器
电子设备
模块
计算机
程序
系统为您推荐了相关专利信息
主驾座椅
汽车中控屏
评价方法
位姿可调
布局优化方法
数字电位器
主控芯片
USB控制电路
通讯电路
控制芯片
电容组件
封装结构
堆叠结构
转接板
芯片互联结构
冰柜玻璃门
智能除霜
双位电源开关
冰柜门体
驱动芯片
采掘装备
PID算法控制
装载设备
运输设备
变频控制器