摘要
本发明公开一种基于深度强化学习的机器人路径规划方法,涉及智慧农业,路径规划,机器人等领域。首先进行农场环境感知与定义机器人状态空间与动作空间,并设置多模态加权组合奖励机制与经验回放缓冲区。在传统DDPG算法中的Critic网络损失函数中引入可学习的权重系数,并在Actor网络的目标函数中加入熵正则化项,再通过自适应衰减贪心策略选择微分博弈生成控制策略或DDPG算法生成动作,最后执行动作或控制策略,更新网络参数与目标网络参数,并动态更新经验回放缓冲区。与其他路径规划方法相比,本方提高了路径规划对动态环境的适应性,在复杂的农业环境下,也具备良好的效率及安全性。
技术关键词
深度强化学习
机器人
双曲正切函数
贪心策略
农场环境
障碍物
深度确定性策略梯度
机制
动态避障
平衡能量消耗
多模态
反馈控制策略
更新网络参数
路径规划方法
定义
系统为您推荐了相关专利信息
防护方法
机器人运动学
机器人关节空间
人体物理
阻尼
交互优化方法
送餐机器人
时间预测模型
记忆单元
矩阵
驱动关节
SCARA机器人
惯量控制方法
电机编码器
动态
六轴机械臂
机器人机身
转向驱动装置
机器人底座
自动称量
机器人设计方法
矩阵
声音识别信息
肢体动作识别
味觉识别