摘要
本发明是一种基于深度强化学习的多智能体逃逸方法,包括以下步骤:获取追方智能体和逃方智能体数量信息、物理尺寸信息、移动信息和追逃环境物理信息;构建追方智能体和逃方智能体各自生成两个演员网络和两个评论家网络分别命名为演员网络、演员网络的目标网络、评论家网络、评论家网络的目标网络;采用MADDPG对追方智能体和逃方智能体各自生成两个演员网络和两个评论家网络进行训练,得到逃方智能体逃脱追方智能体追捕的逃逸算法;追方智能体和逃方智能体的测试集数据,采用逃方智能体逃脱追方智能体追捕的逃逸算法进行测试,得到逃方智能体逃脱追方智能体逃脱任务的完成率,该方法提高多智能体在逃逸任务中的总体性能和效率。
技术关键词
逃逸方法
深度强化学习
Sigmoid函数
物理
算法
浮点数
网络结构
策略
代表
尺寸
标志
数值
矩形
速度
数据
系统为您推荐了相关专利信息
通讯控制系统
低功耗待机模式
有线通讯协议
加热
AI算法
敞篷客车
环境监测模块
安全控制模块
中央控制单元
敞篷机构
特征预测方法
预测网络模型
注意力神经网络
物理
训练集数据
网络性能测试方法
云服务器
虚拟扩展局域网
网卡
队列