摘要
本发明属于强化学习的技术领域,具体公开了一种基于强化学习的集群协同围猎方法,包括:初始化围猎智能体的策略神经网络和进攻智能体的初始状态;在围猎智能体和进攻智能体各自执行所选取动作后,确定围猎智能体获得的奖励并基于奖励更新策略神经网络的动作价值函数和状态价值函数,以对策略神经网络进行训练;在策略神经网络的目标损失函数收敛的情况下,将策略神经网络迁移到博弈对抗场景中进行测试;基于策略神经网络围猎智能体在场景测试中达到集群协同围猎要求的情况下,确定策略神经网络实现了围猎智能体的集群协同围猎。本方案解决了不对称条件下围猎双方的混合纳什均衡策略求解的技术难题。
技术关键词
集群
场景
神经网络硬件
纳什均衡策略
马尔可夫模型
编码模块
测试模块
决策
探测器
矩阵
损耗
样本
载体
参数
系统为您推荐了相关专利信息
性能测试系统
智能变电站
电网暂态
交换机
全景数据采集
跟踪识别系统
多模态信息
车辆
动态
特征提取模块
温湿度控制器
温湿度传感器单元
数据加密算法
传感器监测
分析模块