分布式训练集群的作业调度系统

AITNT
正文
推荐专利
分布式训练集群的作业调度系统
申请号:CN202510926563
申请日期:2025-07-04
公开号:CN120803653A
公开日期:2025-10-17
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了分布式训练集群的作业调度系统,包括:队列管理服务、作业队列、作业部署管理服务、作业分析服务、作业终止管理服务和容错服务;所述作业队列的数量为多个。本发明针对大规模分布式AI训练场景,管理多个队列,通过对训练作业进行分析,适应性执行相应处理,实现对各个训练作业的合理调度,确保各个训练作业具有较高的可用性和可靠性,在存在大量训练作业时也能够保证训练效率和训练效果。
技术关键词
作业调度系统 队列管理 资源 分布式训练 检查点 软件错误 训练场景 人工智能技术 集群 规模 节点 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号