摘要
本公开涉及一种基于多智能体强化学习的围捕策略网络的训练方法和装置,应用于包含至少两个围捕者和逃逸者的液体环境,可以通过当前时刻至少两个围捕者各自的状态信息以及至少两个围捕者各自与其它围捕者和逃逸者的相对状态信息,使用与至少两个围捕者各自对应的围捕策略网络得到至少两个围捕者各自的动作信息;通过将全局信息输入到评价网络,得到针对至少两个围捕者各自的动作信息的评分信息,以对至少两个围捕者各自对应的围捕策略网络进行训练。采用了中心化训练与去中心化执行的范式,确保了算法在复杂环境中的稳定性和可扩展性,进一步实现仿生机器鱼在复杂环境中高效的合作围捕。
技术关键词
多智能体强化学习
状态转移模型
策略
网络
障碍物
决策
训练装置
液体
仿生机器
阶段
周期
算法
系统为您推荐了相关专利信息
路径寻优方法
消防设备控制技术
无人消防设备
状态更新
终点
语义识别方法
语义标签
融合语义
融合特征
编码器
嵌合抗原受体T细胞
纯度检测方法
拉普拉斯
活力
荧光
智能家居物联网
交互方法
作息规律
空气质量分析
温度湿度传感器