一种基于多策略优化和情景记忆的多智能体进化强化学习方法

正文

推荐专利

申请号：CN202510288922

申请日期：2025-03-12

公开号：CN120218114A

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了一种基于多策略优化和情景记忆的多智能体进化强化学习方法，包括以下步骤：初始化多智能体强化学习团队和进化学习团队，包括智能体的观测表征和策略表征；根据交互经验和情景记忆更新强化学习团队策略；利用进化算法根据种群适应度更新进化学习团队策略；通过状态编码器对全局状态进行特征提取与降维；基于情景记忆机制对缓冲池中的记忆进行更新；将强化学习团队与进化学习团队进行策略交互，得到当前最优策略。本发明通过多策略优化机制，解决了传统进化强化学习方法中强化学习团队和进化学习团队之间策略交互有限的问题，同时利用情景记忆机制优化智能体的决策质量和学习效率。本方法不仅能提高算法的收敛速度，还能够增强多智能体对动态变化的非平稳环境的适应性，从而做出对团队有利的决策。

技术关键词

团队强化学习方法多策略多智能体强化学习状态编码器进化算法嵌入特征强化学习策略邻居强化学习系统基因机制强化学习算法数据项记忆模块网络决策动态更新

系统为您推荐了相关专利信息

基于大语言模型的团队式对话生成与辅导学习方法及系统

学生大语言模型教师学习方法知识点

融合图卷积与大语言模型的状态动作关系强化学习方法

强化学习方法动作关系自然语言文本节点特征大语言模型

一种基于图强化学习的配电网故障恢复方法及相关装置

配电网故障恢复故障恢复策略多智能体强化学习注意力神经网络配电网模型

人形机器人运动控制强化学习方法

人形机器人强化学习方法分层强化学习通信模块注意力机制

一种基于分数模型的离线强化学习方法

强化学习方法机器人控制离线近似误差鲁棒性

一种基于多策略优化和情景记忆的多智能体进化强化学习方法

站点导航

APP 下载