摘要
本发明公开基于多智能体课程强化学习的无人艇围捕对抗决策方法,所述方法包括:构建包含动态目标和多岛礁的海洋对抗仿真环境;设计归一化状态空间表征敌我运动态势、多尺度奖励函数及连续动作空间;在集中训练分散执行框架中部署自适应课程调度器,动态调整训练环境复杂度、动作噪声强度和策略熵系数;采用多智能体近端策略优化(MAPPO)算法训练决策模型。该调度器基于滑动窗口成功率、训练回合数和性能停滞计数器动态升降级环境难度,解决稀疏奖励和策略泛化问题。实验表明,本方法显著提升围捕成功率、缩短任务时间并降低碰撞率。
技术关键词
无人艇
决策方法
动作噪声
连续动作空间
调度器
表达式
滑动窗口
动作策略
运动控制算法
协同控制策略
定义
网络
动态
岛礁
仿真场景
速度
策略更新
计数器
仿真环境
系统为您推荐了相关专利信息
移动群智感知
无人机
DQN算法
路径规划系统
策略