用于强化学习训练的模型指令遵循能力验证方法及装置

AITNT
正文
推荐专利
用于强化学习训练的模型指令遵循能力验证方法及装置
申请号:CN202510771308
申请日期:2025-06-10
公开号:CN120822573A
公开日期:2025-10-21
类型:发明专利
摘要
本发明提供一种用于强化学习训练的模型指令遵循能力验证方法及装置,其中的方法包括:获取指令遵循样本集;指令遵循样本集中多个指令遵循样本均包括指令及其对应的验证信号;将指令作为目标模型在强化学习训练时的输入,获取目标响应;根据指令对应的验证信号,对目标响应进行验证,得到目标验证分数,目标验证分数用于作为目标模型输出目标响应的奖励信号以优化目标模型的参数。该方法通过同时对目标响应进行软约束验证和硬约束验证,为目标模型的强化学习训练提供了更全面、更可靠的验证结果,显著提升了目标模型在指令遵循任务中的表现;还能显著提升目标模型的性能,并保持目标模型的通用能力。
技术关键词
能力验证方法 指令 样本 能力验证装置 非暂态计算机可读存储介质 信号 处理器 大语言模型 计算机程序产品 存储器 参数 电子设备 模块 数据
系统为您推荐了相关专利信息
1
嵌入式代码单元测试的自动化方法、系统、设备及介质
嵌入式代码 自动化方法 参数 自动化系统 训练神经网络
2
机场安全监控数据的分析方法及系统
安全监控数据 事件特征 分析方法 网络 风险
3
视频处理方法、系统、装置、设备及介质
双边滤波算法 像素点 通道 亮度 视频
4
一种基于双支曼巴网络的桥梁健康状态检测方法及系统
桥梁健康状态检测 注意力 网络 特征提取模块 双模态
5
基于眼底检查机器人的远程控制系统及控制方法
检查机器人 远程控制系统 相机模块 控制模块 通信模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号