一种基于多智能体策略多样化的实现方法及系统

正文

推荐专利

申请号：CN202510337217

申请日期：2025-03-21

公开号：CN120258035A

公开日期：2025-07-04

类型：发明专利

摘要

本发明涉及一种基于多智能体策略多样化的实现方法及系统，属于多智能体强化学习技术领域。该方法包括以下步骤：首先，在探索阶段采用多智能体近端策略优化框架进行策略更新，通过集中训练分散执行架构实现全局价值评估与局部动作生成；同时，通过滑动窗口计算奖励序列的变异系数，动态检测策略收敛情况，若策略收敛，将当前探索策略收入到历史策略库中；最后，基于Stein变分梯度下降算法从历史策略存储库中抽取策略粒子集，驱动策略向未探索的行为空间优化，突破局部最优。本发明通过自适应收敛检测、历史策略存储库架构以及集成MAPPO与SVGD的完整框架，显著提升了多智能体策略的多样性、适应性和计算效率。

技术关键词

策略更新滑动窗口多智能体强化学习技术存储库多智能体系统梯度下降算法粒子动态框架网络处理器阶段存储模块可读存储介质存储器参数复杂度序列

系统为您推荐了相关专利信息

一种基于时频特征增强和虚警率控制的海面目标检测方法

滑动平均滤波特征提取网络构建卷积神经网络信号样本

一种SaaS模式下大数据平台存储数据隔离方法

存储数据隔离方法概率密度曲线邻域特征模式大数据平台

一种基于多稀疏滤波器组合的织物缺陷检测方法

稀疏滤波器织物缺陷检测方法检测网络模型模块织物疵点

一种乳化沥青破乳速度测定方法

乳化沥青破乳速度时序预测模型测定方法在线学习机制门控循环单元

一种用于电力采集终端的升级方法及系统

序列升级方法滑动窗口电流电力采集终端升级

一种基于多智能体策略多样化的实现方法及系统

站点导航

APP 下载