摘要
本发明提供了一种基于多对多合同设计的分层联邦多任务学习方法,首先由多个智能体生成多个合同,并将合同经环境处理后传递给每个设备集合,集合根据动态规划算法选择效用最高的几份合同并反馈给环境,环境根据集合的选择模拟计算每个智能体的效用,并将平均效用作为奖励反馈给智能体。MAPPO算法根据上述步骤迭代,每一轮迭代智能体都会将经验存放到经验池中,直到迭代满足一定条件,智能体会从经验池中获取经验来更新动作网络和评论家网络。本发明实现了从“一对多”到“多对多”的激励扩展,更贴近真实场景,还使用MAPPO算法在复杂的动态博弈的场景下设计合同激励,这种激励机制极大地提高了在复杂、非平稳和信息不完全环境下的适应性和鲁棒性。
技术关键词
多任务学习方法
无人机基站
服务器
终端设备
网络
分层
动态规划算法
发布者
参数
能耗
通信系统
决策
动作策略
接收系统
数据分布
样本
定义
系统为您推荐了相关专利信息
协同建模方法
中央空调系统
设备运行数据
多维特征向量
负荷
膨化机
模糊PID控制器
GRU神经网络
粒子群算法优化
系统传递函数
损伤识别模型
前馈神经网络
多模态深度学习
损伤识别系统
图像
电池剩余容量
粒子群优化算法
曲线
表达式
时间卷积网络
监控网络安全
网络流量数据
支持向量机分类器
异常数据
电力监控技术