摘要
本申请公开一种基于模糊推理的多智能体任务分配方法、系统及介质,涉及多智能体强化学习领域,方法包括:获取所有智能体历史时刻的多维特征以及所有子任务历史时刻的多维特征,并根据所有子任务的均值和协方差,确定基于模糊推理的子任务选择器网络;利用子任务评估网络,以第一TD损失函数最小为目标对子任务选择器网络和子任务策略网络进行训练;利用智能体信用分配网络,以第二TD损失函数最小为目标对智能体策略网络进行训练;将每个智能体当前时刻的局部观测信息、上一时刻的执行动作和上一时刻的子任务依次输入训练后的智能体策略网络和基于模糊推理的子任务选择器网络,进行子任务分配。本申请提高了多智能体任务分配的效率和准确率。
技术关键词
策略
模糊推理规则
模糊集合
团队
动态任务分配方法
隶属度函数
多智能体强化学习
混合网络
双时间尺度
分层
场景
处理器
计算机系统
参数
在线
数据
轨迹
系统为您推荐了相关专利信息
升降控制系统
数字孪生模型
障碍物
生成反馈信号
执行故障诊断
索引优化方法
子模块
深度强化学习
模式
深度Q网络
多模态信息融合
温室黄瓜
灌水系统
平滑技术
实例分割