一种基于GRPO算法的导航方法、装置、设备及介质

正文

推荐专利

申请号：CN202511123956

申请日期：2025-08-12

公开号：CN120970648A

公开日期：2025-11-18

类型：发明专利

摘要

本申请公开了一种基于GRPO算法的导航方法、装置、设备及介质，涉及强化学习技术领域，包括：基于KL散度计算当前策略与前若干次迭代策略的平均相似度；通过基于若干次迭代的奖励确定的平均奖励变化率及平均相似度更新步长因子；基于采样轨迹的梯度估计确定梯度估计校正项，根据梯度估计校正项及原始梯度估计确定目标梯度估计，通过目标梯度估计及更新后步长因子对当前策略进行更新；在更新当前策略时，对重要性权重进行裁剪，根据裁剪后权重对GRPO算法的目标函数进行修正，基于修正后函数及更新后策略训练GRPO算法，以便智能体基于训练后GRPO算法学习最优策略，根据最优策略确定迷宫的出口。由此，提高了算法的稳定性。

技术关键词

导航方法算法因子校正轨迹强化学习技术可读存储介质存储计算机程序策略更新导航装置数值模块频率处理器电子设备数据存储器

系统为您推荐了相关专利信息

一种应用于光纤组网的分布式光纤数据规划系统及方法

网络拓扑结构分布式光纤链路业务流量数据深度优先搜索算法

一种塑料包装的质量分析方法、系统、电子设备和介质

分析饮料全景视频 DTW算法超声波盖子

基于电力系统特征识别的电网项目储备需求预测方法及系统

需求预测方法新型电力系统项目需求预测模型 LSTM算法

一种基于自适应曲率的口内扫描交互分割方法

曲率分析方法分割方法顶点区域增长算法深度优先搜索

一种基于人工智能的路基边坡风险监测与预警系统

三维地形数据路基边坡植被历史监测数据三维地形模型

一种基于GRPO算法的导航方法、装置、设备及介质

站点导航

APP 下载