摘要
本发明属于多智能体控制技术领域,具体涉及一种基于深度强化学习的多智能体协同控制方法及系统;其中,基于深度强化学习的多智能体协同控制方法包括:获取智能体个体的状态空间和动作空间;考虑智能体个体的隐式奖励函数,构建最优互惠避障可行域;采用添加双向门控循环单元的多智能体近端策略优化算法进行多智能体的深度强化学习,优化智能体个体的动作空间和状态空间,得到多智能体的动态状态估计值;根据所得到的动态状态估计值,规划智能体个体的最优路径,完成多智能体的协同控制。针对智能体个体之间如何协同控制的难题进行了深入研究,结合多智能体避障与路径规划在动态环境中实现智能体之间的协同与竞争,实现多种场景下的路径规划。
技术关键词
深度强化学习
协同控制方法
门控循环单元
速度
动态障碍物
智能体控制技术
规划
协同控制系统
策略
计算机程序产品
处理器
算法
可读存储介质
存储器
软件
控制模块
直线
电子设备