用于强化学习训练的模型指令遵循能力验证方法及装置

正文

推荐专利

申请号：CN202510771308

申请日期：2025-06-10

公开号：CN120822573A

公开日期：2025-10-21

类型：发明专利

摘要

本发明提供一种用于强化学习训练的模型指令遵循能力验证方法及装置，其中的方法包括：获取指令遵循样本集；指令遵循样本集中多个指令遵循样本均包括指令及其对应的验证信号；将指令作为目标模型在强化学习训练时的输入，获取目标响应；根据指令对应的验证信号，对目标响应进行验证，得到目标验证分数，目标验证分数用于作为目标模型输出目标响应的奖励信号以优化目标模型的参数。该方法通过同时对目标响应进行软约束验证和硬约束验证，为目标模型的强化学习训练提供了更全面、更可靠的验证结果，显著提升了目标模型在指令遵循任务中的表现；还能显著提升目标模型的性能，并保持目标模型的通用能力。

技术关键词

能力验证方法指令样本能力验证装置非暂态计算机可读存储介质信号处理器大语言模型计算机程序产品存储器参数电子设备模块数据

系统为您推荐了相关专利信息

嵌入式代码单元测试的自动化方法、系统、设备及介质

嵌入式代码自动化方法参数自动化系统训练神经网络

机场安全监控数据的分析方法及系统

安全监控数据事件特征分析方法网络风险

视频处理方法、系统、装置、设备及介质

双边滤波算法像素点通道亮度视频

一种基于双支曼巴网络的桥梁健康状态检测方法及系统

桥梁健康状态检测注意力网络特征提取模块双模态

基于眼底检查机器人的远程控制系统及控制方法

检查机器人远程控制系统相机模块控制模块通信模块

用于强化学习训练的模型指令遵循能力验证方法及装置

站点导航

APP 下载