摘要
本发明属于机器人路径规划技术领域,公开了一种基于深度强化学习的自主移机器人路径规划方法,本发明针对在复杂动态环境中agent难以充分感知环境的问题,拓展和调整了SAC的State space,以增强对未知环境的全面感知和更加灵活地全方位避障;设计了一种启发式奖励函数,实现奖励值的动态调整,从而优化了机器人的学习过程。针对复杂环境下,算法计算复杂度上升,收敛速度减慢的问题,结合优先经验回放(PER)技术和SumTree数据结构来优化样本利用率。PER技术增加高价值样本的权重,使得智能体在训练过程中能够更快地学习有效策略;引入SumTree数据结构进一步提高了PER的效率。
技术关键词
深度强化学习
障碍物
信息数据处理终端
机器人路径规划技术
移动机器人运动
动态
样本
计算机设备
处理器
注意力
网络
策略
节点
可读存储介质
短距离
存储器