摘要
一种用于适用于采用顺从性控制器的高精度装配任务的机器人技能学习的方法和系统。演员‑评论家强化学习控制器耦合到顺应性控制器,其中,演员神经网络基于机器人状态数据反馈向顺应控制器提供目标位置调整动作数据,并且评论家神经网络用于训练演员。评论家神经网络从机器人接收机器人状态数据反馈和奖励数据,以及从演员接收动作数据,并且关联与状态相关联的最优动作以便最大化奖励。然后,评论家调整演员的参数,使得演员响应于状态数据产生有效动作,从而导致顺应性控制器/机器人系统快速且可靠地完成装配任务。在演员被充分训练之后,不再使用评论家。
技术关键词
学习控制器
机器人控制器
模块
策略
数据
学习系统
参数
频率
模式
定义
机器人系统
回路
命令
速度
关节
运动
可靠地
矩阵