摘要
本发明公开了一种基于深度强化学习的多机器人协同围捕方法,包括:建立机器人围捕逃逸环境;设计基于阶段学习机制的机器人围捕奖励函数;设计改进的MAPPO算法,改进的MAPPO算法包含多个Critic网络和多个Actor网络;使用Critic网络估计机器人的局部优势值,采用非线性混合网络根据局部优势值计算全局优势值;使用全局优势值计算Actor网络的目标函数,使用围捕奖励函数计算损失函数;根据损失函数对Critic网络参数进行更新,根据目标函数对Actor网络参数进行更新,得到多机器人协同围捕策略;本发明能够缓解深度强化学习算法中的奖励稀疏问题,优化多个围捕机器人之间的奖励分配,减少Critic网络的价值估计误差并提高计算精度,从提升机器人执行围捕任务时的完成效率和成功率。
技术关键词
围捕方法
多机器人协同
混合网络
阶段
参数
非线性
深度强化学习算法
策略
归一化模块
梯度下降法
轨迹
估计误差
机制
顶点
速度
短距离
系统为您推荐了相关专利信息
消融系统
光学相干断层成像
消融导管
血管内超声
算法模块
像素点
颜色
亮度
图像处理方法
非易失性存储介质
负荷曲线聚类方法
分布特征
初始聚类中心
动态
时间段
数值天气预报数据
气象预报数据
气象预报方法
实测气象数据
重构误差
文本生成模型
生成方法
网络
多头注意力机制
解码器