一种基于内在奖励网络的多智能体强化学习策略优化方法

正文

推荐专利

申请号：CN202411900895

申请日期：2024-12-23

公开号：CN119740630B

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种基于内在奖励网络的多智能体强化学习策略优化方法，属于强化学习技术领域，其方法包括：搭建包含多个智能体的强化学习模拟场景并对模型参数进行初始化，所述模型参数包括决策网络参数、内在奖励网络参数和状态价值网络参数；获取环境奖励、全局观测数据以及每个智能体的局部观测数据，并得到每个智能体的执行动作、内在奖励；分别构建决策网络、内在奖励网络和状态价值网络的损失函数并对模型参数进行优化。本发明通过一个参数化的内在奖励网络，为每个智能体生成内在奖励，用来激励智能体执行多样化的动作，提高了多智能体系统中每个智能体的适应能力。

技术关键词

强化学习策略网络决策智能机器人红绿灯状态信息参数梯度下降算法多层感知机数据强化学习技术智能体系统车辆关节行人数量场景障碍物模块样本线性

系统为您推荐了相关专利信息

基于AR眼镜分析与Transformer结合的体育健身辅助应用

AR眼镜摄像头模块传感器模块体育并行计算架构

基于Retinex理论和小波变换的电缆隧道的灾病智能诊断方法

电缆隧道 Retinex理论智能诊断模型图像智能诊断方法

一种输电线路智能监测系统及方法

监测点训练深度神经网络构建深度神经网络气象传感器输电线路智能

基于多阶段记忆映射的在线动作检测方法

在线动作检测多阶段二维卷积神经网络抑制背景噪声交叉注意力机制

异常行为检测方法、装置、设备及存储介质

网络节点通信网络神经网络模型节点特征卷积算法

一种基于内在奖励网络的多智能体强化学习策略优化方法

站点导航

APP 下载