一种基于深度强化学习的多机器人协同围捕方法

正文

推荐专利

申请号：CN202510711313

申请日期：2025-05-29

公开号：CN120578168A

公开日期：2025-09-02

类型：发明专利

摘要

本发明公开了一种基于深度强化学习的多机器人协同围捕方法，包括：建立机器人围捕逃逸环境；设计基于阶段学习机制的机器人围捕奖励函数；设计改进的MAPPO算法，改进的MAPPO算法包含多个Critic网络和多个Actor网络；使用Critic网络估计机器人的局部优势值，采用非线性混合网络根据局部优势值计算全局优势值；使用全局优势值计算Actor网络的目标函数，使用围捕奖励函数计算损失函数；根据损失函数对Critic网络参数进行更新，根据目标函数对Actor网络参数进行更新，得到多机器人协同围捕策略；本发明能够缓解深度强化学习算法中的奖励稀疏问题，优化多个围捕机器人之间的奖励分配，减少Critic网络的价值估计误差并提高计算精度，从提升机器人执行围捕任务时的完成效率和成功率。

技术关键词

围捕方法多机器人协同混合网络阶段参数非线性深度强化学习算法策略归一化模块梯度下降法轨迹估计误差机制顶点速度短距离

系统为您推荐了相关专利信息

一种肾交感神经消融系统及其使用方法

消融系统光学相干断层成像消融导管血管内超声算法模块

图像处理方法及装置、存储介质、计算机程序产品

像素点颜色亮度图像处理方法非易失性存储介质

一种基于分布-动态特征指标降维的日负荷曲线聚类方法

负荷曲线聚类方法分布特征初始聚类中心动态时间段

一种基于数值天气预报与AI修订的新能源气象预报方法

数值天气预报数据气象预报数据气象预报方法实测气象数据重构误差

基于主从模型协作的长文协作生成方法

文本生成模型生成方法网络多头注意力机制解码器

一种基于深度强化学习的多机器人协同围捕方法

站点导航

APP 下载