摘要
本发明公开了一种基于多智能体深度强化学习的两阶段激励方法,涉及智能体深度强化学习技术领域,为了解决现有技术中激励方法的过程过于繁琐以及效果不佳的问题。本发明通过特定区域的仿真实验,以出租车为参与者模拟真实感知任务地理分布与轨迹规划,采用深度Q学习、历史参与率优化等对比机制,结合平均参与者效用、平台效用、任务完成率等多维指标,验证方案在动态环境中的适应性,结合不同传感器特性量化成本,使参与者能精准评估自身能耗,在预算约束下最大化平台效用,同时通过预算与任务覆盖的双向制衡,确保任务“最小可行性覆盖”与预算不超支,训练时可观测其他智能体动作以优化协作,执行时仅依赖本地状态,适应多参与者竞争场景。
技术关键词
多智能体深度强化学习
激励方法
平台
阶段
任务分配算法
能耗
层次分析法
深度Q学习
复杂度
深度强化学习技术
动态
网络
任务分配策略
资源
数据
出租车
机制
图表
系统为您推荐了相关专利信息
交通设施
地图数据更新方法
地图要素
计算机执行指令
地图数据更新装置
龙门平台
运动台
定位检测机构
伺服运动控制
倒装机构
爬坡机构
承重平台
支撑立柱
作业机器人
轻质合金型材
车辆
车牌识别方法
图像处理模块
跨模态融合特征
模态特征
显微扫描平台
反射式光谱仪
精密检测装置
精密检测方法
超辐射发光二极管