摘要
本申请公开了一种基于GRPO算法的导航方法、装置、设备及介质,涉及强化学习技术领域,包括:基于KL散度计算当前策略与前若干次迭代策略的平均相似度;通过基于若干次迭代的奖励确定的平均奖励变化率及平均相似度更新步长因子;基于采样轨迹的梯度估计确定梯度估计校正项,根据梯度估计校正项及原始梯度估计确定目标梯度估计,通过目标梯度估计及更新后步长因子对当前策略进行更新;在更新当前策略时,对重要性权重进行裁剪,根据裁剪后权重对GRPO算法的目标函数进行修正,基于修正后函数及更新后策略训练GRPO算法,以便智能体基于训练后GRPO算法学习最优策略,根据最优策略确定迷宫的出口。由此,提高了算法的稳定性。
技术关键词
导航方法
算法
因子
校正
轨迹
强化学习技术
可读存储介质
存储计算机程序
策略更新
导航装置
数值
模块
频率
处理器
电子设备
数据
存储器
系统为您推荐了相关专利信息
网络拓扑结构
分布式光纤
链路
业务流量数据
深度优先搜索算法
需求预测方法
新型电力系统
项目
需求预测模型
LSTM算法
曲率分析方法
分割方法
顶点
区域增长算法
深度优先搜索
三维地形数据
路基边坡
植被
历史监测数据
三维地形模型