摘要
本发明提供一种基于动态调整奖励机制的训练方法,应用于对抗课程学习的多无人机,包括:获取第一方无人机和第二方无人机;在第一方无人机和第二方无人机进行攻击课程学习的情况下,根据预设的多智能体近端策略优化算法确定第一方无人机和所述第二方无人机中的攻击奖励配置的第一参数;在第一方无人机和第二方无人机进行防御课程学习的情况下,根据多智能体近端策略优化算法确定第一方无人机和所述第二方无人机中的防御奖励配置的第二参数;在第一方无人机和所述第二方无人机进行对抗课程学习的情况下,根据多智能体近端策略优化算法确定第一方无人机的平衡奖励配置的第三参数;基于第一参数、第二参数、第三参数确定目标奖励配置参数。
技术关键词
参数
多无人机
策略
算法
导弹
因子
网络
机制
动态
系统为您推荐了相关专利信息
数据分发方法
指令
无锁队列
计算机程序产品
流媒体技术
卫星光学遥感
高时空分辨率
数据融合方法
总量
网格
饱和度
图像处理方法
像素
色彩管理
图像处理装置
电量算法
梯度下降优化算法
安时积分法
卡尔曼滤波算法
管理方法
风机运行参数
功率控制单元
功率优化
控制系统
数据获取模块