摘要
本发明公开了一种子任务语义不变的多智能体策略模型迁移方法与系统。本发明通过可扩展子任务编码器将待执行的多智能体任务编码为可执行的子任务,并将该子任务分配给执行多智能体任务中的每个智能体,然后通过自适应动作解码器将分配好的子任务以及当前智能体的观测数据来计算出智能体与环境交互的具体动作;当待执行的多智能体任务发生变化时,可扩展子任务编码器和自适应动作解码器可确保分配的子任务在各个多智能体任务间具有一致且可扩展的语义,同时分解到的子任务赋予了任务独立性,进而实现多智能体策略模型在各个多智能体任务间的模型迁移。本发明可实现多智能体策略模型在各个多智能体任务间的模型迁移。
技术关键词
实体
编码器
模型迁移方法
注意力机制
解码器
语义向量
强化学习策略
交互动作
模块
轨迹
迁移系统
多层感知器
存储计算机程序
场景
定义
处理器
可读存储介质