摘要
本发明提供一种用于强化学习训练的模型指令遵循能力验证方法及装置,其中的方法包括:获取指令遵循样本集;指令遵循样本集中多个指令遵循样本均包括指令及其对应的验证信号;将指令作为目标模型在强化学习训练时的输入,获取目标响应;根据指令对应的验证信号,对目标响应进行验证,得到目标验证分数,目标验证分数用于作为目标模型输出目标响应的奖励信号以优化目标模型的参数。该方法通过同时对目标响应进行软约束验证和硬约束验证,为目标模型的强化学习训练提供了更全面、更可靠的验证结果,显著提升了目标模型在指令遵循任务中的表现;还能显著提升目标模型的性能,并保持目标模型的通用能力。
技术关键词
能力验证方法
指令
样本
能力验证装置
非暂态计算机可读存储介质
信号
处理器
大语言模型
计算机程序产品
存储器
参数
电子设备
模块
数据
系统为您推荐了相关专利信息
嵌入式代码
自动化方法
参数
自动化系统
训练神经网络
桥梁健康状态检测
注意力
网络
特征提取模块
双模态
检查机器人
远程控制系统
相机模块
控制模块
通信模块