摘要
本发明公开了一种动态环境下基于智能算法的多智能体协同追逃方法,该方法首先获取包含障碍物的状态信息的图像,采用变分自编码器VAE对图像进行处理,获得未知障碍物运动信息。其次根据未知障碍物运动信息,结合观测得到的智能状态信息,得到智能体的完整状态向量。最后通过追击者强化学习网络获取追击者策略,并通过多智能体双延迟深度确定性策略梯度MATD3算法进行训练;通过逃脱者强化学习网络获取逃脱者策略,并通过近端策略优化PPO算法进行训练,完成多智能体协同追逃。本发明提高了控制策略和网络的稳定性,减小智能体控制策略陷入局部最优的可能性,解决了多智能体在复杂动态环境中的高效追捕问题。
技术关键词
强化学习网络
智能算法
障碍物
编码器
动态
多智能体协同
更新网络参数
解码器
控制策略
网络结构
图像
误差加权
代表
梯度下降法
变量