摘要
本发明公开了基于强化学习模型的机器人群体协调方法,包括以下步骤:每个机器人被隐马尔科夫模型分配角色;机器人i将历史观测和动作编码成机器人i轨迹τi,来自机器人i和轨迹τi的观测值被送入强化学习网络;所述强化学习网络为角色分配效用矩阵,对效用矩阵进行张量环分解后,动态调整秩的大小,以优化单个机器人的局部效用;单个机器人的局部效用优化之后,所述强化学习网络对机器人i轨迹τi局部观测通过误差正则项和惩罚正则项进行优化;每个机器人根据优化后的局部观测做出独立决策。本申请动态调整张量秩的大小,使得单个无人机的局部效用得到优化;对无人机通过全局信息对局部观测优化,从而对无人机进行统一协调。
技术关键词
强化学习模型
机器人
强化学习网络
隐马尔科夫模型
矩阵
飞行轨迹控制
观测误差
ADMM算法
无人机群体
控制无人机
序列
动态
决策
编码
数据
系统为您推荐了相关专利信息
光伏板清洗机器人
片体
开口轴套
喷雾机构
清洗机构
辐射状配电网
全局优化方法
变量
上下层
电力系统