摘要
本发明涉及一种机器人协同决策方法、装置、计算机设备及存储介质,所述方法包括:每个机器人获取当前步状态数据,当前步状态数据包括机器人的当前步自身状态数据以及当前步动态环境数据,当前步动态环境数据根据机器人以外的其他机器人的自身状态数据获取;每个机器人根据对应的上一步独立决策模型执行动作后,产生当前步独立奖励;每个机器人根据预设范围内的所有机器人的当前步独立奖励,获取当前步联合奖励;每个机器人根据当前步自身状态数据、当前步动态环境数据和当前步联合奖励,更新对应的上一步独立决策模型,以获取对应的当前步独立决策模型,并输出决策。本发明可以使得每个机器人的决策实现与其他机器人的协同,且与环境更加适配。
技术关键词
机器人
数据
动态
决策方法
计算机设备
深度Q网络
处理器
参数
通信链路
数学
可读存储介质
存储器
因子
变量
误差
速率
物理