摘要
本发明公开了一种基于元强化学习的多机器人动态任务规划方法,涉及机器人系统任务调度领域,S1:建立多个具有代表性的任务规划场景的数学模型;S2:应用元强化学习方法,在步骤S1中建立的任务规划场景中进行预训练,得到通用的任务规划算法参数;S3:建立目标任务规划场景的数学模型;S4:应用深度强化学习方法,基于步骤S2中得到的算法参数进行微调,得到适合目标场景的最优任务规划方法。本发明设计了一种基于元强化学习的任务规划算法,在任务无法预先确定的动态任务规划场景中,能在较短时间内获得效率较高的任务规划方案,且在场景发生变化时,能在少次更新后达到与原先持平的性能水平,极大地提高了算法对动态环境的适应能力。
技术关键词
深度强化学习方法
机器人
深度强化学习模型
训练场景
规划算法
场景发生变化
数学模型
参数
动态
深度Q网络
深度神经网络
时间段
决策
矩阵
系统为您推荐了相关专利信息
电源转换模块
遥控水下机器人
组合供电系统
动力电池
降压转换电路
仓储智能
仓储机器人
识别系统
防撞单元
分析单元
六自由度机械臂
夹胶玻璃
机械臂控制器
轨迹规划算法
自动切膜方法