摘要
本申请提供了一种机器人的策略模型训练方法、设备及存储介质,其中,该方法包括:在离线学习阶段,首先采集专家示范数据,让机器人基于专家示范数据进行模仿学习,得到初始策略模型以及离线数据池。进入在线学习阶段,机器人就可以在专家策略的基础上进行强化学习,根据人工介入信息确定当前时间步的训练数据,将训练数据加入在线数据池中,并根据离线数据池与在线数据池进行模型参数更新,在所有任务结束后,将得到的初始策略模型作为目标策略模型。本申请在机器人在线强化学习的过程中,还将模型自主探索和人工介入相结合,进一步提升机器人策略网络的鲁棒性,并实现了机器人策略从示范到自主的高效转变。
技术关键词
策略
模型训练方法
离线数据集合
在线
机器可读指令
指示机器人
处理器
可读存储介质
参数
电子设备
鲁棒性
计算机
阶段
网络
基础