一种基于内在奖励网络的多智能体强化学习策略优化方法

AITNT
正文
推荐专利
一种基于内在奖励网络的多智能体强化学习策略优化方法
申请号:CN202411900895
申请日期:2024-12-23
公开号:CN119740630B
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种基于内在奖励网络的多智能体强化学习策略优化方法,属于强化学习技术领域,其方法包括:搭建包含多个智能体的强化学习模拟场景并对模型参数进行初始化,所述模型参数包括决策网络参数、内在奖励网络参数和状态价值网络参数;获取环境奖励、全局观测数据以及每个智能体的局部观测数据,并得到每个智能体的执行动作、内在奖励;分别构建决策网络、内在奖励网络和状态价值网络的损失函数并对模型参数进行优化。本发明通过一个参数化的内在奖励网络,为每个智能体生成内在奖励,用来激励智能体执行多样化的动作,提高了多智能体系统中每个智能体的适应能力。
技术关键词
强化学习策略 网络 决策 智能机器人 红绿灯状态信息 参数 梯度下降算法 多层感知机 数据 强化学习技术 智能体系统 车辆 关节 行人数量 场景 障碍物 模块 样本 线性
系统为您推荐了相关专利信息
1
基于AR眼镜分析与Transformer结合的体育健身辅助应用
AR眼镜 摄像头模块 传感器模块 体育 并行计算架构
2
基于Retinex理论和小波变换的电缆隧道的灾病智能诊断方法
电缆隧道 Retinex理论 智能诊断模型 图像 智能诊断方法
3
一种输电线路智能监测系统及方法
监测点 训练深度神经网络 构建深度神经网络 气象传感器 输电线路智能
4
基于多阶段记忆映射的在线动作检测方法
在线动作检测 多阶段 二维卷积神经网络 抑制背景噪声 交叉注意力机制
5
异常行为检测方法、装置、设备及存储介质
网络节点 通信网络 神经网络模型 节点特征 卷积算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号