摘要
本发明涉及一种基于多智能体策略多样化的实现方法及系统,属于多智能体强化学习技术领域。该方法包括以下步骤:首先,在探索阶段采用多智能体近端策略优化框架进行策略更新,通过集中训练分散执行架构实现全局价值评估与局部动作生成;同时,通过滑动窗口计算奖励序列的变异系数,动态检测策略收敛情况,若策略收敛,将当前探索策略收入到历史策略库中;最后,基于Stein变分梯度下降算法从历史策略存储库中抽取策略粒子集,驱动策略向未探索的行为空间优化,突破局部最优。本发明通过自适应收敛检测、历史策略存储库架构以及集成MAPPO与SVGD的完整框架,显著提升了多智能体策略的多样性、适应性和计算效率。
技术关键词
策略更新
滑动窗口
多智能体强化学习技术
存储库
多智能体系统
梯度下降算法
粒子
动态
框架
网络
处理器
阶段
存储模块
可读存储介质
存储器
参数
复杂度
序列
系统为您推荐了相关专利信息
滑动平均滤波
特征提取网络
构建卷积神经网络
信号
样本
存储数据隔离方法
概率密度曲线
邻域特征
模式
大数据平台
稀疏滤波器
织物缺陷检测方法
检测网络模型
模块
织物疵点
乳化沥青破乳速度
时序预测模型
测定方法
在线学习机制
门控循环单元