摘要
本发明涉及路径规划技术领域,尤其涉及基于神经元弹性学习和多Q值策略的路径规划方法,包括构建移动机器人在未知环境中的路径规划,以Actor‑Critic网络进行策略学习;初始化ActorNetwork和Critic Network网络参数;通过对ActorNetwork中每一层的神经元进行主次功能区分,删除次神经元并随机赋值,保留主神经元所学;Critic Network中使用多Q值并选择最小的两个Q值取平均作为策略评估目标。本发明提出基于神经元弹性学习和多Q值策略的移动机器人路径规划方法,以解决现有深度强化学习路径规划算法无法在缩小对缓解漂移的修复时间的同时减小Q值高估问题的局限。
技术关键词
路径规划方法
策略
计算机程序代码
移动机器人
路径规划技术
路径规划系统
网络
路径规划算法
深度强化学习
动态障碍物
因子
处理器
墙壁
速度
数据
指令
系统为您推荐了相关专利信息
数据加密
决策树模型
存储系统
加密策略
存储管理模块
机器人控制系统
分布式控制系统
动态路径规划
智能驱动模块
任务调度
成像控制电路
主控模块
补光模块
摄像头模块
摄像控制模块
位置更新
任务分配模型
元启发式算法
无人机
策略