摘要
本发明公开了一种基于多策略优化和情景记忆的多智能体进化强化学习方法,包括以下步骤:初始化多智能体强化学习团队和进化学习团队,包括智能体的观测表征和策略表征;根据交互经验和情景记忆更新强化学习团队策略;利用进化算法根据种群适应度更新进化学习团队策略;通过状态编码器对全局状态进行特征提取与降维;基于情景记忆机制对缓冲池中的记忆进行更新;将强化学习团队与进化学习团队进行策略交互,得到当前最优策略。本发明通过多策略优化机制,解决了传统进化强化学习方法中强化学习团队和进化学习团队之间策略交互有限的问题,同时利用情景记忆机制优化智能体的决策质量和学习效率。本方法不仅能提高算法的收敛速度,还能够增强多智能体对动态变化的非平稳环境的适应性,从而做出对团队有利的决策。
技术关键词
团队
强化学习方法
多策略
多智能体强化学习
状态编码器
进化算法
嵌入特征
强化学习策略
邻居
强化学习系统
基因
机制
强化学习算法
数据项
记忆
模块
网络
决策
动态更新
系统为您推荐了相关专利信息
强化学习方法
动作关系
自然语言文本
节点特征
大语言模型
配电网故障恢复
故障恢复策略
多智能体强化学习
注意力神经网络
配电网模型
人形机器人
强化学习方法
分层强化学习
通信模块
注意力机制