基于自适应课程强化学习的无人艇围捕对抗决策方法

正文

推荐专利

申请号：CN202510796440

申请日期：2025-06-16

公开号：CN120779936A

公开日期：2025-10-14

类型：发明专利

摘要

本发明公开基于多智能体课程强化学习的无人艇围捕对抗决策方法，所述方法包括：构建包含动态目标和多岛礁的海洋对抗仿真环境；设计归一化状态空间表征敌我运动态势、多尺度奖励函数及连续动作空间；在集中训练分散执行框架中部署自适应课程调度器，动态调整训练环境复杂度、动作噪声强度和策略熵系数；采用多智能体近端策略优化(MAPPO)算法训练决策模型。该调度器基于滑动窗口成功率、训练回合数和性能停滞计数器动态升降级环境难度，解决稀疏奖励和策略泛化问题。实验表明，本方法显著提升围捕成功率、缩短任务时间并降低碰撞率。

技术关键词

无人艇决策方法动作噪声连续动作空间调度器表达式滑动窗口动作策略运动控制算法协同控制策略定义网络动态岛礁仿真场景速度策略更新计数器仿真环境

系统为您推荐了相关专利信息

面向移动群智感知的多目标自适应无人机路径规划方法及系统

移动群智感知无人机 DQN算法路径规划系统策略

一种基于推理实例快照的推理平台

推理平台快照容器内存节点

一种基于联邦学习对LLM进行自适应微调的方法

客户端服务器优化网络参数语义层级

基于大语言模型的城乡供水系统的调度决策方法及系统

调度决策方法预测需水量大语言模型数据聚类

一种异构海洋机器人的动态交会控制方法

海洋机器人无人潜器辅助控制器动能耗散结构

基于自适应课程强化学习的无人艇围捕对抗决策方法

站点导航

APP 下载