摘要
本申请涉及一种基于多目标异步策略的通信感知任务分配方法和装置,所述方法根据带宽约束,将多智能体系统的分布式任务分配算法中的通信策略优化问题转化为异步约束分散部分可观测马尔可夫决策过程;根据异步约束分散部分可观测马尔可夫决策过程,构建考虑通信过程的异步约束多智能体强化学习环境;根据异步约束多智能体强化学习环境,采用多目标耦合PPO方法对分布式任务分配方法中的多目标异步通信策略进行优化,得到最终多目标异步通信策略;每架无人机采用最终多目标异步通信策略,完成无人机集群通信感知任务分配。本方法采用多目标耦合PPO方法同时减少带宽开销和最小化任务冲突,在通信效率和分配可靠性之间实现了更优的平衡。
技术关键词
任务分配方法
多智能体强化学习
无人机集群
拉格朗日
任务分配算法
分布式方式
决策
松弛方法
多智能体系统
网络
因子
参数更新方法
任务分配装置
定义策略
超参数