摘要
本发明公开了一种生成对抗交互自模仿学习的多AUV编队与避障方法,多AUV编队与避障方法基于多个AUV,每个AUV分别部署有一个策略网络、一个价值网络以及一个鉴别器,每个AUV还分别具有一个临时轨迹池,每个AUV具有专家演示轨迹,所述多AUV编队与避障方法包括:编队训练各AUV,包括:对所有AUV进行编队,按照编队顺序分别训练各个AUV的策略模型;AUV的策略模型训练方法包括:将AUV放置在目标环境中运动,获得时间步的局部观测;生成策略轨迹;从策略轨迹和专家演示轨迹中抽取一定数量的状态动作对训练所述AUV的鉴别器。本发明的生成对抗交互自模仿学习的多AUV编队与避障方法,在多AUV策略模型训练过程中,每个AUV仅通过自己的局部观测进行决策,极大地减小了需要频繁交换信息带来的通信延迟、数据丢失等问题。
技术关键词
策略
模型训练方法
轨迹
网络
决策
数据
运动
算法