摘要
本发明公开了一种提升离线强化学习机器人控制准确性的方法、设备及介质,属机器人控制领域,方法包括:步骤1,获取包含受损数据和未受损数据的离线数据集;步骤2,利用所述离线数据集以鲁棒的变分贝叶斯推断方法对控制机器人的离线强化学习模型进行训练,直到最大化奖励的累计值;步骤3,将步骤2训练好的离线强化学习模型部署于机器人,控制机器人完成预定的操作任务。该方法贝叶斯推断框架来捕捉离线数据集中由多样化的数据受损引起的不确定性,减少受损数据对策略的负面作用,显著提高模型在干净环境中的鲁棒性和性能,也提升了离线强化学习模型所控制机器人的准确性。
技术关键词
多层感知机
数据分布
离线
强化学习模型
学习机器人
重构
变分贝叶斯
推断方法
数值
参数
网络
样本
机器人控制
生成动作
处理器
数据更新
标识
可读存储介质