摘要
本发明涉及一种基于多智能体强化学习追逃博弈中的有限时间逃避策略,属于强化学习和追逃博弈领域;首先在DQN算法的基础上,根据追逐者采用放牧策略,逃避者通过自身的机动性,对动作空间进行了重新考虑;接下来本发明设置了五种基本动作,利用DQN算法的迭代过程,根据追逐者和逃避者的相对状态,通过给定奖励来引导逃避者逃逸;然后在强化学习中引入了势函数,根据追逐者和逃避者的相对势动态调整逃避者的奖励,有效地提高了训练效率。本发明可以应用于多智能体强化学习追逃博弈算法中,实现了逃避者在有限时间内避免多个追逐者的捕获。
技术关键词
多智能体强化学习
追逃博弈
DQN算法
动作策略
仿真模型
定义
计算机可执行指令
加速度
可读存储介质
参数
计算机程序产品
仿真环境
坐标系
表格
概念
方程
决策
系统为您推荐了相关专利信息
分支
动态时间规整
稳定性检验方法
极值
核电厂系统
偏差计算方法
仿真模型
仿真数据
无功电流
有功功率
交通系统
仿真平台
仿真方法
城市道路网络
仿真模型
节点设备
训练智能体
资源分配策略
任务调度
系统级芯片