摘要
本发明公开了一种基于模块化策略解耦的空海协同多智能体控制方法,面向空中无人机轰炸任务与海上无人艇围捕任务,分别构建空域与海域多智能体环境,将各类智能体的控制建模为多智能体马尔可夫决策过程,并引入模块化动作解耦机制,将整体策略拆分为多个可独立组合的策略模块,显著提升了策略的表达能力与训练效率;基于改进的多智能体深度确定性策略梯度算法,融合专家策略先验和共享经验回放机制,分别训练无人机与无人艇的策略网络;在策略执行阶段,通过训练完成的去中心化策略实现智能体自主控制。该方法具备训练效率高、泛化能力强、策略可重构等优势,适用于军事仿真、集群控制与应急决策等领域。
技术关键词
多智能体控制方法
策略
解耦机制
定义
多无人艇协同
统一数据接口
海上无人艇
连续动作空间
多无人机协同
导航模块
强化学习网络
状态转移模型
训练无人机
空中无人机
决策