一种基于多策略优化和情景记忆的多智能体进化强化学习方法

AITNT
正文
推荐专利
一种基于多策略优化和情景记忆的多智能体进化强化学习方法
申请号:CN202510288922
申请日期:2025-03-12
公开号:CN120218114A
公开日期:2025-06-27
类型:发明专利
摘要
本发明公开了一种基于多策略优化和情景记忆的多智能体进化强化学习方法,包括以下步骤:初始化多智能体强化学习团队和进化学习团队,包括智能体的观测表征和策略表征;根据交互经验和情景记忆更新强化学习团队策略;利用进化算法根据种群适应度更新进化学习团队策略;通过状态编码器对全局状态进行特征提取与降维;基于情景记忆机制对缓冲池中的记忆进行更新;将强化学习团队与进化学习团队进行策略交互,得到当前最优策略。本发明通过多策略优化机制,解决了传统进化强化学习方法中强化学习团队和进化学习团队之间策略交互有限的问题,同时利用情景记忆机制优化智能体的决策质量和学习效率。本方法不仅能提高算法的收敛速度,还能够增强多智能体对动态变化的非平稳环境的适应性,从而做出对团队有利的决策。
技术关键词
团队 强化学习方法 多策略 多智能体强化学习 状态编码器 进化算法 嵌入特征 强化学习策略 邻居 强化学习系统 基因 机制 强化学习算法 数据项 记忆 模块 网络 决策 动态更新
系统为您推荐了相关专利信息
1
基于大语言模型的团队式对话生成与辅导学习方法及系统
学生 大语言模型 教师 学习方法 知识点
2
融合图卷积与大语言模型的状态动作关系强化学习方法
强化学习方法 动作关系 自然语言文本 节点特征 大语言模型
3
一种基于图强化学习的配电网故障恢复方法及相关装置
配电网故障恢复 故障恢复策略 多智能体强化学习 注意力神经网络 配电网模型
4
人形机器人运动控制强化学习方法
人形机器人 强化学习方法 分层强化学习 通信模块 注意力机制
5
一种基于分数模型的离线强化学习方法
强化学习方法 机器人控制 离线 近似误差 鲁棒性
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号