一种基于GRPO算法的大模型推理优化方法

正文

推荐专利

申请号：CN202510250008

申请日期：2025-03-04

公开号：CN120373451A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开一种基于GRPO算法的大模型推理优化方法，包括以下步骤：动作采样：在每个状态下，从策略网络中采样多个候选动作，所述候选动作包括从策略网络输出的动作分布中采样或通过扰动机制在当前策略基础上生成的动作变种；相对奖励计算：计算每个候选动作相对于其他候选动作的表现差异，生成相对奖励信号，所述相对奖励信号基于候选动作之间的相对效果而非绝对价值；策略更新：根据所述相对奖励信号更新策略网络，所述策略更新基于候选动作的相对表现而非单独的动作价值；稳定性增强：通过组内相对奖励机制，避免传统强化学习方法中因价值网络估计不准确导致的不稳定性，减少梯度消失或爆炸问题。

技术关键词

强化学习方法策略更新算法网络机制实时数据处理自动驾驶系统信号物联网设备图像分析采样模块批量复杂度速度字典磁盘基础参数

系统为您推荐了相关专利信息

一种鸡体尺的自动化测量方法

自动化测量方法图像处理算法 grabcut算法多视角成像系统轮廓特征

基于会员偏好的快递派送方法、装置、设备及存储介质

快递派送方法交通状况信息计算机可读指令地点数据

飞机蒙皮材料优化方法、系统、装置及存储介质

飞机蒙皮材料仿真数据电磁场仿真物理参数

基于混合现实的三叉神经节穿刺动态追踪定位系统

追踪定位系统混合现实眼镜动态穿刺针模块

一种基于多目标优化的露天矿山无人矿卡调度方法及系统

优化调度模型露天矿山矩阵表达式 Dijkstra算法

一种基于GRPO算法的大模型推理优化方法

站点导航

APP 下载