摘要
本申请提供了一种训练集群的任务调度方法、装置、电子设备、计算机可读存储介质及计算机程序产品,应用于训练集群中的调度节点,训练集群还包括多个工作节点,工作节点包括至少一个计算单元;方法包括:对机器学习模型的训练任务进行解析,得到训练任务的多个任务实例和每个任务实例所需的计算单元的第一数量;接收工作节点发送的通信质量参数,并基于通信质量参数确定通信质量矩阵;基于通信质量矩阵和第一数量,从工作节点中选取目标工作节点;将任务实例调度至目标工作节点,以使多个目标工作节点执行多个任务实例,其中,多个目标工作节点通过彼此之间的通信连接交换任务实例的执行结果。通过本申请,能够提高训练任务的执行效率和成功率。
技术关键词
节点
任务调度方法
计算机可执行指令
集群
机器学习模型
计算机程序产品
矩阵
通信带宽
可读存储介质
任务调度装置
电子设备
参数
处理器
模块
存储器
系统为您推荐了相关专利信息
液体静压轴承
伺服液压站
性能分析方法
参数
仿真模型
任务分配策略
多智能体协同
光伏电站智能
设备状态评估
实时监测数据
风险预测模型
术后并发症
风险预测方法
电子健康记录
患者
基站管理系统
多智能体建模
充电基站
情景
数据知识库