一种基于GRPO算法的导航方法、装置、设备及介质

AITNT
正文
推荐专利
一种基于GRPO算法的导航方法、装置、设备及介质
申请号:CN202511123956
申请日期:2025-08-12
公开号:CN120970648A
公开日期:2025-11-18
类型:发明专利
摘要
本申请公开了一种基于GRPO算法的导航方法、装置、设备及介质,涉及强化学习技术领域,包括:基于KL散度计算当前策略与前若干次迭代策略的平均相似度;通过基于若干次迭代的奖励确定的平均奖励变化率及平均相似度更新步长因子;基于采样轨迹的梯度估计确定梯度估计校正项,根据梯度估计校正项及原始梯度估计确定目标梯度估计,通过目标梯度估计及更新后步长因子对当前策略进行更新;在更新当前策略时,对重要性权重进行裁剪,根据裁剪后权重对GRPO算法的目标函数进行修正,基于修正后函数及更新后策略训练GRPO算法,以便智能体基于训练后GRPO算法学习最优策略,根据最优策略确定迷宫的出口。由此,提高了算法的稳定性。
技术关键词
导航方法 算法 因子 校正 轨迹 强化学习技术 可读存储介质 存储计算机程序 策略更新 导航装置 数值 模块 频率 处理器 电子设备 数据 存储器
系统为您推荐了相关专利信息
1
一种应用于光纤组网的分布式光纤数据规划系统及方法
网络拓扑结构 分布式光纤 链路 业务流量数据 深度优先搜索算法
2
一种塑料包装的质量分析方法、系统、电子设备和介质
分析饮料 全景视频 DTW算法 超声波 盖子
3
基于电力系统特征识别的电网项目储备需求预测方法及系统
需求预测方法 新型电力系统 项目 需求预测模型 LSTM算法
4
一种基于自适应曲率的口内扫描交互分割方法
曲率分析方法 分割方法 顶点 区域增长算法 深度优先搜索
5
一种基于人工智能的路基边坡风险监测与预警系统
三维地形数据 路基边坡 植被 历史监测数据 三维地形模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号