摘要
本发明涉及人工智能技术领域,公开了分布式训练集群的作业调度系统,包括:队列管理服务、作业队列、作业部署管理服务、作业分析服务、作业终止管理服务和容错服务;所述作业队列的数量为多个。本发明针对大规模分布式AI训练场景,管理多个队列,通过对训练作业进行分析,适应性执行相应处理,实现对各个训练作业的合理调度,确保各个训练作业具有较高的可用性和可靠性,在存在大量训练作业时也能够保证训练效率和训练效果。
技术关键词
作业调度系统
队列管理
资源
分布式训练
检查点
软件错误
训练场景
人工智能技术
集群
规模
节点
数据