摘要
本发明公开了一种计算任务调度方法、装置、终端设备及存储介质,其中方法包括:初始化多智能体强化学习模型的模型参数,对目标区域的每一无人机创建一个智能体;根据网络配置数据设定初始状态,开始对多智能体强化学习模型进行迭代;利用智能体对应的行为网络输出计算节点选择的概率分布,并基于计算节点选择的概率分布生成第一动作数组;利用行为网络输出链路权重的概率分布,并基于链路权重的概率分布生成第二动作数组;基于第一动作数组和第二动作数组组成综合动作,根据综合动作确定任务路径规划方案,路径规划方案包括计算任务选择的目的节点和转发路径。本发明能够有效降低计算任务卸载的时延,从而能够有效提高计算任务的处理效率。
技术关键词
任务调度方法
多智能体强化学习
性能统计数据
网络链路状态
节点
规划
无人机
可读存储介质
终端设备
表达式
任务调度装置
网络拓扑
列表
强化学习模型
计算机
参数
策略