摘要
本发明公开了一种基于内在奖励网络的多智能体强化学习策略优化方法,属于强化学习技术领域,其方法包括:搭建包含多个智能体的强化学习模拟场景并对模型参数进行初始化,所述模型参数包括决策网络参数、内在奖励网络参数和状态价值网络参数;获取环境奖励、全局观测数据以及每个智能体的局部观测数据,并得到每个智能体的执行动作、内在奖励;分别构建决策网络、内在奖励网络和状态价值网络的损失函数并对模型参数进行优化。本发明通过一个参数化的内在奖励网络,为每个智能体生成内在奖励,用来激励智能体执行多样化的动作,提高了多智能体系统中每个智能体的适应能力。
技术关键词
强化学习策略
网络
决策
智能机器人
红绿灯状态信息
参数
梯度下降算法
多层感知机
数据
强化学习技术
智能体系统
车辆
关节
行人数量
场景
障碍物
模块
样本
线性
系统为您推荐了相关专利信息
AR眼镜
摄像头模块
传感器模块
体育
并行计算架构
电缆隧道
Retinex理论
智能诊断模型
图像
智能诊断方法
监测点
训练深度神经网络
构建深度神经网络
气象传感器
输电线路智能
在线动作检测
多阶段
二维卷积神经网络
抑制背景噪声
交叉注意力机制
网络节点
通信网络
神经网络模型
节点特征
卷积算法