一种生成对抗交互自模仿学习的多AUV编队与避障方法

正文

推荐专利

申请号：CN202411137054

申请日期：2024-08-19

公开号：CN119336013B

公开日期：2025-12-12

类型：发明专利

摘要

本发明公开了一种生成对抗交互自模仿学习的多AUV编队与避障方法，多AUV编队与避障方法基于多个AUV，每个AUV分别部署有一个策略网络、一个价值网络以及一个鉴别器，每个AUV还分别具有一个临时轨迹池，每个AUV具有专家演示轨迹，所述多AUV编队与避障方法包括：编队训练各AUV，包括：对所有AUV进行编队，按照编队顺序分别训练各个AUV的策略模型；AUV的策略模型训练方法包括：将AUV放置在目标环境中运动，获得时间步的局部观测；生成策略轨迹；从策略轨迹和专家演示轨迹中抽取一定数量的状态动作对训练所述AUV的鉴别器。本发明的生成对抗交互自模仿学习的多AUV编队与避障方法，在多AUV策略模型训练过程中，每个AUV仅通过自己的局部观测进行决策，极大地减小了需要频繁交换信息带来的通信延迟、数据丢失等问题。

技术关键词

策略模型训练方法轨迹网络决策数据运动算法

一种生成对抗交互自模仿学习的多AUV编队与避障方法

站点导航

APP 下载