摘要
本申请提供一种基于多智能体强化学习网络的计算机系统和网络优化方法,涉及深度强化学习技术领域。基于多智能体强化学习网络的计算机系统包括:策略网络模块,用于接收目标智能体对应的局部状态信息和能力向量,以及对局部状态信息和能力向量进行处理,并输出目标智能体分别对应的动作信息的概率值,其中,局部状态信息包含除目标智能体以外的至少两个其他智能体的观测信息,以并列堆叠的形式依次输入至策略网络模块;价值网络模块,用于接收目标智能体对应的全局状态信息或局部状态信息,并根据全局状态信息或局部状态信息得到目标智能体对应的长远价值信息,以用于对策略网络模块和价值网络模块进行优化。本申请能够提高网络算法的通用型。
技术关键词
网络模块
多智能体强化学习
全局状态信息
子模块
计算机系统
策略
网络优化方法
强化学习网络
神经网络单元
动作特征
样本
输出级
深度强化学习技术
动作交互
参数
数据采集单元
处理器
系统为您推荐了相关专利信息
资产全生命周期
设备故障预测
智能管理方法
数字孪生模型
办公设备
故障监测方法
故障特征模型
零序电流传感器
故障监测系统
断路器本体
上肢康复机器人
抓取物品
无线通讯模块
子模块
意图
失眠治疗仪
电流输出模块
音乐播放模块
人机交互模块
控制模块
财务机器人系统
数据处理方法
生成财务报告
人工智能算法
决策支持子模块