结合人类偏好与可验证正确性信号的可靠奖励评价方法及装置

AITNT
正文
推荐专利
结合人类偏好与可验证正确性信号的可靠奖励评价方法及装置
申请号:CN202510212277
申请日期:2025-02-25
公开号:CN120104749A
公开日期:2025-06-06
类型:发明专利
摘要
本申请提供一种结合人类偏好与可验证正确性信号的可靠奖励评价方法及装置,涉及人工智能技术领域,该方法包括:将待评价模型响应分别输入到基础奖励模型和可验证正确性信号奖励模型中,得到每个模型输出的奖励评分;基于每个模型输出的奖励评分以及每个模型的权重进行加权求和,得到针对待评价模型响应的最终奖励评分;基础奖励模型用于表征人类对模型响应的偏好评分;可验证正确性信号奖励模型用于表征模型响应在特定方面的正确性。本申请提供的结合人类偏好与可验证正确性信号的可靠奖励评价方法,不仅能够考虑人类偏好,还能综合考虑模型响应的事实性和指令遵循等可验证的正确性信号,从而提供更准确、可靠的奖励。
技术关键词
评价方法 自然语言模型 人类 路由器 信号 指令 基础 人工智能技术 评价装置 处理器 脚本 可读存储介质 存储器 电子设备 模块 计算机 程序
系统为您推荐了相关专利信息
1
汽车中控屏操作便利性评价方法、装置、设备及介质
主驾座椅 汽车中控屏 评价方法 位姿可调 布局优化方法
2
储能电源及其硬件通讯电路
数字电位器 主控芯片 USB控制电路 通讯电路 控制芯片
3
封装结构
电容组件 封装结构 堆叠结构 转接板 芯片互联结构
4
冰柜玻璃门智能除霜控制器及玻璃门
冰柜玻璃门 智能除霜 双位电源开关 冰柜门体 驱动芯片
5
一种基于变频驱动的采掘装备装运自适应控制方法
采掘装备 PID算法控制 装载设备 运输设备 变频控制器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号