摘要
本发明涉及一种多智能体强化学习决策系统及其联合训练方法,该系统包括多智能体包括协调智能器和N个单智能体,N大于等于1,每个单智能体相互独立,用于从各自的微场景中,获取完成子任务目标需要的环境样本,采用各自独立的强化学习智能算法,分别为子任务目标进行智能决策;协调智能器,用于获取总任务目标需要的环境样本,采用强化学习智能算法,根据预设的规则,优选单智能体的决策,使得总任务目标达到最优。
技术关键词
强化学习模型
联合训练方法
多智能体强化学习
决策系统
多智能体系统
多阶段
智能算法
参数
实时状态信息
训练系统
仿真环境
样本
层次化结构
训练智能体
智能体模型
场景
策略更新
逻辑