摘要
本申请涉及一种基于协作通信策略的快速分布式任务分配方法和装置,所述方法中观测、动作和奖励机制同时考虑了MAC层的任务相关和通信相关特征;通过集中训练与分散执行的方案,MAPPO被扩展了反事实奖励,以提高学习速度和最终性能。所学习的协作通信策略显著减少了通信冲突和竞争,可应用于任意分布式任务分配算法,从而加速收敛并提高性能,训练后的通信策略能够有效降低实际分布式网络环境中所需的通信带宽。
技术关键词
任务分配方法
深度Q网络
策略优化方法
多智能体强化学习
通信信道
强化学习环境
发送消息
分布式遗传算法
超参数
分布式网络环境
生成智能
任务分配算法
任务分配装置
捆绑算法
拍卖算法
机制