一种基于经验筛选与个体奖励生成的多智能体协同决策方法

正文

推荐专利

申请号：CN202510937078

申请日期：2025-07-08

公开号：CN120430339A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种基于经验筛选与个体奖励生成的多智能体协同决策方法，步骤包括：S1：生成经验缓冲区；经验缓冲区包括多个回合下的经验块；每个回合的经验块中包括相应多个时间步的动作；S2：在经验缓冲区中进行回合采样，并根据个体Q值和总体Q值确认每个回合内多个时间步下的局部最佳状态；S3：根据局部最佳状态确认相应智能体在当前状态下的内在奖励，并根据各个智能体的内在奖励确认全局奖励；S4：根据单个智能体对于全局奖励的贡献程度来对个体奖励进行计算，并用于智能体个体神经网络的更新；本发明能够在稀疏奖励环境下实现对多智能体精确的信用分配，指导策略学习。

技术关键词

决策方法神经网络参数策略

系统为您推荐了相关专利信息

基于高空作业监测多维数据的高空防坠综合分析方法和相关装置

综合分析方法实时数据风险预测模型智能安全带智能安全帽

基于多模态数据融合的呼吸节律推荐方法及相关装置

多模态数据融合心率推荐方法功率值策略梯度强化学习

一种粮仓平粮机器人被埋时自主脱困控制系统及控制方法

平粮机器人光电传感器姿态传感器压力传感器检测粮仓

一种多智能体服务器节能方法

服务器节能方法控制智能体风扇出入口多智能体强化学习服务器系统

基于人工智能的心理健康评估方法、装置、设备及介质

心理健康评估方法决策树模型节点排序策略 LORA模块

一种基于经验筛选与个体奖励生成的多智能体协同决策方法

站点导航

APP 下载