摘要
本发明提供了一种动态环境下的机器人路径规划算法,涉及机器人路径规划技术领域,通过机器人与环境的交互获取动态数据,存储至经验回放缓冲区;从缓冲区随机采样批量数据,输入至Dueling DQN的双流架构中,分解为状态值和优势函数;自适应更新机制基于所述状态值和优势函数计算贝尔曼误差和Q值稳定性,调整自适应目标网络的更新频率;基于更新后的自适应目标网络生成机器人路径规划策略,根据当前环境状态和机器人路径规划策略确定机器人下一步动作,直至到达目标位置,完成路径规划,有效规避机器人路径规划中的无效探索行为,提升到达目标点的效率。
技术关键词
机器人路径规划
生成机器人
批量数据
动态
误差
策略
网络
机制
指标
频率
因子
定义
基础
参数