摘要
本发明涉及一种分布式训练调度方法、系统、电子设备及存储介质,包括接收并识别模型训练任务;通过分布式训练方法将所述模型训练任务拆分为多个子任务,为所述多个子任务分别配置算力集群,并转发所述多个子任务至对应的算力集群进行并行训练;所述算力集群可对应一个或多个子任务进行并行训练;实时监控所述并行训练时的所述多个算力集群的健康状况以及算力资源使用情况,动态调整任务调度策略。本发明通过实现多OpenStack算力集群网络连接的SDN化,以及网络服务的自动化,实现了分布式训练任务的智能调度,同时根据模型特性和并行策略自动选择不同硬件特性的算力集群,实现了对于多云异构的算力集群的有效利用。
技术关键词
任务调度策略
SDN交换机
分布式训练方法
SDN控制器
集群监控
健康状况信息
处理器上执行程序
调度系统
虚拟网桥
并行策略
模块
集群通信
集群主节点
网卡
电子设备
组网
动态
系统为您推荐了相关专利信息
人工智能芯片
数据处理方法
强化学习算法
注意力机制
优先级调度算法
分布式模型
云端服务器
节点
分层
分布式机器学习技术
网络功能虚拟化平台
网络服务器
报文
访问控制列表
密钥管理中心
分布式新能源
异常数据检测
任务调度模型
任务调度策略
终端设备