摘要
本发明提供一种基于多智能体强化学习的机器人控制方法、装置和设备,其中方法包括:依据预置规则对机器人群协作系统中的每一机器人的初始神经网络的策略参数进行自适应重置;将每一机器人当前时刻的样本观测数据和上一时刻的样本动作输入至每一机器人的初始神经网络,得到每一机器人的局部预测回报值;根据每一机器人的局部预测回报值,计算全局预测回报值,融合每一机器人的初始神经网络的参数;更新每一机器人的经验池,从每一机器人的经验池中采集样本数据,周期性地重复每一机器人的训练过程,直至达到预设收敛条件;基于训练好的每一机器人的神经网络控制每一机器人完成协作任务。本发明能够提高探索行为的多样性和广度,提高探索效率。
技术关键词
多智能体强化学习
机器人控制方法
协作系统
样本
轨迹
周期性地重复
参数
非暂态计算机可读存储介质
混合网络
数据
策略
机器人控制装置
机器人抓取
处理器
存储器
控制单元
物体
电子设备
系统为您推荐了相关专利信息
多模态
预警方法
迁移学习方法
文本特征向量
样本
爆胎车辆
轨迹规划方法
拟合算法
车辆状态参数
加速度
六自由度并联机构
六自由度空间
控制点
轨迹
设备校准方法
推荐模型训练方法
音频特征提取
歌曲推荐方法
文本
歌曲推荐装置