摘要
本申请公开了一种机器人控制方法、系统、电子设备和计算机可读存储介质,包括:获取当前轮次的输入状态,以及从目标经验池中采样得到的历史状态动作对及其对应的奖励值;将当前轮次的输入状态输入控制模型,得到机器人的下一步动作,基于历史状态动作对及其对应的奖励值,更新控制模型的参数;基于当前轮次机器人的下一步动作,确定与当前轮次的奖励阶段相匹配的奖励值,得到当前轮次的状态动作对及其对应的奖励值加入目标经验池;其中,奖励阶段随轮次的累计值递进变化,依次包括目标物抓取阶段、目标物放置阶段和机器人控制阶段;响应于控制模型收敛,利用控制模型控制机器人输出下一步动作。上述方案,能够提高机器人控制的精度和便捷度。
技术关键词
机器人控制方法
阶段
机器人控制系统
可读存储介质
网络
策略
机器人抓取
参数
电子设备
离线
在线
关节
程序
计算机
处理器
模块
存储器
数据
系统为您推荐了相关专利信息
巡检数据处理方法
多路径网络
节点
鸟群算法
表达式
盾构隧道施工方法
富水地层
密封系统
注浆材料
高压水环境
加权均值滤波
BP神经网络预测
汽油
大数据
在线