摘要
本发明提供了基于混合模仿学习的多智能体追捕决策方法及系统,包括:在专家轨迹数据的类型为多模态时,采用多专家轨迹生成对抗模仿学习方法对专家轨迹数据进行训练,以得到第一决策模型;在专家轨迹数据的类型为单模态时,采用时序差分误差行为克隆方法对专家轨迹数据进行训练,以得到第二决策模型;将第一决策模型和第二决策模型赋予智能体,并通过智能体对第一决策模型和第二决策模型进行推演,得到混合追捕决策模型;智能体通过追捕决策模型对含有动静目标的追捕场景进行决策处理,以得到相应追捕策略;该方法将时序差分误差行为克隆和多专家轨迹生成对抗模仿学习进行有效结合,以提升多智能体系统在复杂、动态环境中的决策与协作能力。
技术关键词
决策方法
模仿学习方法
克隆方法
生成轨迹
数据
场景
学生
时序
网络
多智能体系统
强化学习算法
可读存储介质
匹配误差
决策系统
策略更新
电子设备
系统为您推荐了相关专利信息
多源遥感数据
动态监测方法
输入端
太阳方位角
双时间尺度
轻度认知功能障碍
音乐
强化方法
强化学习模型
记忆
围油栏系统
中控模块
智能应急
溢油事故
压力传感器单元