摘要
本申请属于强化学习技术领域。本申请提供一种基于记忆推理的异构巡飞集群自主协同规划方法。该方法包括:针对异构巡飞集群的智能体训练仿真环境,为每个智能体构建马尔可夫决策过程;构建智能体动力学模型;初始化仿真环境;通过环境交互采样获取数据,更新双记忆模块,利用记忆推理模块对长期记忆模块数据进行处理,结合情节激励机制生成激励系数,与短期记忆模块中的数据共同计算目标Q值和当前Q值,并加权损失函数更新动作价值网络。基于策略网络和熵网络计算损失,更新策略网络及熵网络参数并周期性更新记忆推理模块;若满足结束条件停止训练,输出训练完成的多智能体强化学习模型。
技术关键词
协同规划方法
记忆
异构
集群
仿真环境
网络
加权损失函数
模块
加速度
策略
多智能体模型
解码器
强化学习技术
编码器
强化学习模型
双轨结构
重建误差
数据
参数
障碍物
系统为您推荐了相关专利信息
自动化机器人
电路板
控制器
工作参数数据
异常监测方法
监测方法
谱聚类算法
资质证书
多源异构数据
LSTM模型
网络拓扑优化
数据立方体
动态资源调度
铁路
动态贝叶斯网络