摘要
本发明公开一种基于模型引导离线强化学习的机器人控制方法及系统,该方法步骤包括:步骤S01.构建非线性机器人的线性增量模型以及构建Q函数;步骤S02.使用预先收集的训练数据迭代求解控制输入增量所对应的最优增量策略,同时学习得到线性增量模型;步骤S03.使用学习到的线性增量模型进行前向预测产生合成数据集,并加入至机器人数据集中形成增强数据集;步骤S04.使用增强数据集训练机器人的强化学习策略,以对机器人进行实时控制。本发明具有实现方法简单、控制效率以及精度高、适应性以及灵活性强等优点,能够缓解传统先仿真器训练后硬件部署的强化学习策略迁移差的问题,改善数据偏差问题。
技术关键词
机器人控制方法
强化学习策略
离线
训练机器人
矩阵
数据
机器人控制系统
非线性
存储计算机程序
仿真器
处理器
可读存储介质
存储器
表达式
方程
偏差
系统为您推荐了相关专利信息
心率变异信号
推荐系统
胰岛素
碳水化合物
循环神经网络模型
误差标定补偿方法
矢量磁力仪
误差补偿模型
误差估计值
拟合算法
小生境粒子群算法
电压调控方法
无功补偿装置
有载调压变压器
配电网无功优化