摘要
本发明公开了基于分布式鲁棒元强化学习的机器人运动控制方法,包括以下步骤:采样一批任务;对于每一个任务,依据强化学习,用随机初始化的策略采样少量运动轨迹,与环境进行少量交互,对这些运动轨迹进行评估并计算关于策略的梯度,用梯度下降算法对该任务的策略参数进行更新实现快速自适应;更新策略后,用更新后的策略重新采样轨迹进行评估;采用期望尾部风险最小化准则,挑选一部分表现最差的任务进行梯度更新;将优化步骤建模为一个Stackelberg博弈,生成机器人运动控制的学习策略。本申请将分布鲁棒策略简化为一个最大‑最小优化问题,估计其收敛速度。在尾部风险的情况下,建立了与估计分位数之间的联系,提升了鲁棒性。
技术关键词
策略
风险
梯度下降算法
生成机器人
轨迹
鲁棒性
累积分布函数
运动
分布鲁棒
参数
仿真环境
决策
学习器
优化器
玩家
度量
地点
数据
系统为您推荐了相关专利信息
动态可视化
多模态数据融合
融合特征
空间流行病学
风险
光储系统
BP模型
优化BP神经网络
深度网络学习
协调优化模型