摘要
本发明涉及信息技术领域,公开了一种基于知识蒸馏的多任务多智能体协同控制方法,解决连续动作空间下多任务多智能体系统中训练效率低下以及干扰严重的问题,主要方案包括以下步骤:设计适应多任务状态维度变化以及根据文本语义信息区分任务的策略网络模型与评估网络模型;设计用于多任务多智能体协同控制的层级回放池;设计基于知识蒸馏的深度强化学习的策略模型更新方法。针对连续动作空间下的多个任务,提出深度强化学习多智能体协同控制方法,并设计了统一不同任务状态输入以及根据任务文本语义信息区分任务模块,提升智能体对任务状态维度变化的适应能力以及对任务的区分能力,设计了用于多任务多智能体的层级回放池,降低任务之间的干扰。
技术关键词
多任务
策略网络模型
多智能体系统
状态编码器
深度强化学习
障碍物
蒸馏
多层感知机
邻居
连续动作空间
文本
加速度
多智能体协同控制
语义
系统控制误差
策略更新方法