一种基于GRPO算法的大模型推理优化方法

AITNT
正文
推荐专利
一种基于GRPO算法的大模型推理优化方法
申请号:CN202510250008
申请日期:2025-03-04
公开号:CN120373451A
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开一种基于GRPO算法的大模型推理优化方法,包括以下步骤:动作采样:在每个状态下,从策略网络中采样多个候选动作,所述候选动作包括从策略网络输出的动作分布中采样或通过扰动机制在当前策略基础上生成的动作变种;相对奖励计算:计算每个候选动作相对于其他候选动作的表现差异,生成相对奖励信号,所述相对奖励信号基于候选动作之间的相对效果而非绝对价值;策略更新:根据所述相对奖励信号更新策略网络,所述策略更新基于候选动作的相对表现而非单独的动作价值;稳定性增强:通过组内相对奖励机制,避免传统强化学习方法中因价值网络估计不准确导致的不稳定性,减少梯度消失或爆炸问题。
技术关键词
强化学习方法 策略更新 算法 网络 机制 实时数据处理 自动驾驶系统 信号 物联网设备 图像分析 采样模块 批量 复杂度 速度 字典 磁盘 基础 参数
系统为您推荐了相关专利信息
1
一种鸡体尺的自动化测量方法
自动化测量方法 图像处理算法 grabcut算法 多视角成像系统 轮廓特征
2
基于会员偏好的快递派送方法、装置、设备及存储介质
快递派送方法 交通状况信息 计算机可读指令 地点 数据
3
飞机蒙皮材料优化方法、系统、装置及存储介质
飞机蒙皮材料 仿真数据 电磁场仿真 物理 参数
4
基于混合现实的三叉神经节穿刺动态追踪定位系统
追踪定位系统 混合现实眼镜 动态 穿刺针 模块
5
一种基于多目标优化的露天矿山无人矿卡调度方法及系统
优化调度模型 露天矿山 矩阵 表达式 Dijkstra算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号