基于多智能体强化学习的围捕策略网络的训练方法和装置

正文

推荐专利

申请号：CN202411545735

申请日期：2024-10-31

公开号：CN119476404B

公开日期：2025-05-06

类型：发明专利

摘要

本公开涉及一种基于多智能体强化学习的围捕策略网络的训练方法和装置，应用于包含至少两个围捕者和逃逸者的液体环境，可以通过当前时刻至少两个围捕者各自的状态信息以及至少两个围捕者各自与其它围捕者和逃逸者的相对状态信息，使用与至少两个围捕者各自对应的围捕策略网络得到至少两个围捕者各自的动作信息；通过将全局信息输入到评价网络，得到针对至少两个围捕者各自的动作信息的评分信息，以对至少两个围捕者各自对应的围捕策略网络进行训练。采用了中心化训练与去中心化执行的范式，确保了算法在复杂环境中的稳定性和可扩展性，进一步实现仿生机器鱼在复杂环境中高效的合作围捕。

技术关键词

多智能体强化学习状态转移模型策略网络障碍物决策训练装置液体仿生机器阶段周期算法

系统为您推荐了相关专利信息

一种复杂环境下安全灭火路径寻优方法

路径寻优方法消防设备控制技术无人消防设备状态更新终点

一种电动汽车-充电桩参与需求响应策略调节方法及系统

需求响应策略区域内电动汽车表达式集群功率

一种基于深度图辅助的多视图语义识别方法

语义识别方法语义标签融合语义融合特征编码器

一种嵌合抗原受体T细胞疗法中细胞活力与纯度检测方法及系统

嵌合抗原受体T细胞纯度检测方法拉普拉斯活力荧光

一种智能家居物联网交互方法

智能家居物联网交互方法作息规律空气质量分析温度湿度传感器

基于多智能体强化学习的围捕策略网络的训练方法和装置

站点导航

APP 下载