摘要
本发明公开了一种基于经验筛选与个体奖励生成的多智能体协同决策方法,步骤包括:S1:生成经验缓冲区;经验缓冲区包括多个回合下的经验块;每个回合的经验块中包括相应多个时间步的动作;S2:在经验缓冲区中进行回合采样,并根据个体Q值和总体Q值确认每个回合内多个时间步下的局部最佳状态;S3:根据局部最佳状态确认相应智能体在当前状态下的内在奖励,并根据各个智能体的内在奖励确认全局奖励;S4:根据单个智能体对于全局奖励的贡献程度来对个体奖励进行计算,并用于智能体个体神经网络的更新;本发明能够在稀疏奖励环境下实现对多智能体精确的信用分配,指导策略学习。
系统为您推荐了相关专利信息
综合分析方法
实时数据
风险预测模型
智能安全带
智能安全帽
多模态数据融合
心率
推荐方法
功率值
策略梯度强化学习
平粮机器人
光电传感器
姿态传感器
压力传感器
检测粮仓
服务器节能方法
控制智能体
风扇出入口
多智能体强化学习
服务器系统
心理健康评估方法
决策树模型
节点
排序策略
LORA模块