摘要
本发明公开了一种基于置换策略网络的移动多智能体知识迁移方法,涉及多智能体强化学习技术领域。包括:将置换不变性策略网络与置换同变性策略网络嵌入超网络框架,通过超网络动态生成输入层与输出层权重矩阵,建立联合状态‑动作空间与智能体规模、环境变化的动态适配关系;引入置换矩阵特性实现智能体顺序无关性与任务目标响应性的解耦,并通过集中式训练‑分布式执行架构优化策略网络参数;构建包含置换不变性与同变性约束的知识迁移模型;实现相似域任务间策略的高效迁移。本发明解决了动态复杂环境下智能体规模变化与联合状态‑动作空间维度爆炸导致的知识迁移低效问题。
技术关键词
知识迁移方法
超网络
策略
多智能体强化学习技术
矩阵
深度强化学习算法
动态
框架
规模
点分配
参数
障碍物
关系
广义
数学
比率
决策
场景
系统为您推荐了相关专利信息
异常检测方法
桥式起重机
滑触线轨道
多头注意力机制
实时视频
浓烟环境
判别算法
成像特征
热成像
视频采集模块
溶剂挥发速率
智能温控系统
序列
温度预测模型
温度传感器
修复检测方法
注意力模型
节点
抽象语法树
前馈神经网络