摘要
本发明提供一种基于层次博弈深度强化学习的集群追逃控制方法和系统,通过层次博弈结构将多智能体协作任务建模为集体去中心化部分可观测马尔可夫决策过程,并提出一种层次博弈多智能体深度确定性策略梯度算法模型。该算法模型包括高层策略模块和低层策略模块,高层策略模块负责目标分配和任务协调,低层策略模块通过集中训练和分布式执行优化具体行动决策。本方案能够有效提高多智能体系统在复杂环境中的协作效率和应对能力。
技术关键词
追逃博弈
深度强化学习模型
策略
集群
模块
探测传感器
障碍物
算法模型
加速度
多智能体系统
对象
场景
决策
网络
控制系统
频率
系统为您推荐了相关专利信息
学生管理系统
数据存储
大数据
分布式存储架构
成绩
数据依赖关系
时钟门控方法
时序
排序方法
动态仿真模型
身份验证模块
管理系统
数据分析模块
集成模块
生物识别技术
自然语言
语句
指令
语义向量
非暂态计算机可读存储介质