摘要
本发明公开了基于多评论家机制的深度强化学习计算卸载方法及系统,该方法包括:获取设备用户的局部状态向量并通过多评论家近端策略优化算法进行决策,得到设备用户当前状态下的动作决策;与环境进行数据交互,获取设备用户的交互时延与交互能耗,并根据数据交互的完成情况分别进行计算,得到时延奖励和能耗奖励;基于集中式训练分布式执行机制和多评论家机制,对设备用户的动作决策进行训练更新,得到训练后的设备用户;基于训练后的设备用户进行独立决策执行计算卸载任务。本发明能够帮助智能体相互协调和独立做出决策。本发明作为基于多评论家机制的深度强化学习计算卸载方法及系统,可广泛应用于工业物联网边缘计算技术领域。
技术关键词
深度强化学习
时延
卸载方法
能耗
决策
机制
表达式
网络
服务器
边缘计算技术
策略
数据
工业物联网
卸载系统
收集器
算法
广义
模块
超参数
信道