摘要
本申请属于深度强化学习技术领域。本申请提供一种基于多智能体强化学习算法的无人机博弈对抗夺岛方法。本公开实施例在MADDPG算法中引入Rainbow算法模块,如优先经验回放、多步TD更新等,并使用行为克隆加快训练初期的收敛速度。显著提升了样本利用效率和策略的稳定性,使智能体能够在更复杂的任务环境中获得优异表现。设计了结合奖励返回值和战力保存率的奖励函数,不仅能够有效引导智能体完成夺岛任务目标,还鼓励智能体优化资源利用,减少任务过程中的战损。这样的奖励机制能够动态评估任务完成效果、策略效率以及资源消耗平衡,提升了智能体的策略学习能力。战力保存率的引入为强化学习任务提供了一个全新的优化维度。
技术关键词
多智能体强化学习
无人机
策略
深度强化学习技术
协同定位功能
克隆技术
动态环境参数
仿真环境
机制
侦察机
更新网络参数
生成动作
算法模块
多频段
损失率
样本
场景
系统为您推荐了相关专利信息
强化学习模型
救援车辆
生成方法
动态资源调度
人机交互界面
无人机系统
GA遗传算法
事件触发机制
观测器
进化算法