分布式训练调度方法、系统、电子设备及存储介质

AITNT
正文
推荐专利
分布式训练调度方法、系统、电子设备及存储介质
申请号:CN202411013413
申请日期:2024-07-26
公开号:CN118981362A
公开日期:2024-11-19
类型:发明专利
摘要
本发明涉及一种分布式训练调度方法、系统、电子设备及存储介质,包括接收并识别模型训练任务;通过分布式训练方法将所述模型训练任务拆分为多个子任务,为所述多个子任务分别配置算力集群,并转发所述多个子任务至对应的算力集群进行并行训练;所述算力集群可对应一个或多个子任务进行并行训练;实时监控所述并行训练时的所述多个算力集群的健康状况以及算力资源使用情况,动态调整任务调度策略。本发明通过实现多OpenStack算力集群网络连接的SDN化,以及网络服务的自动化,实现了分布式训练任务的智能调度,同时根据模型特性和并行策略自动选择不同硬件特性的算力集群,实现了对于多云异构的算力集群的有效利用。
技术关键词
任务调度策略 SDN交换机 分布式训练方法 SDN控制器 集群监控 健康状况信息 处理器上执行程序 调度系统 虚拟网桥 并行策略 模块 集群通信 集群主节点 网卡 电子设备 组网 动态
系统为您推荐了相关专利信息
1
一种基于人工智能芯片的数据处理方法
人工智能芯片 数据处理方法 强化学习算法 注意力机制 优先级调度算法
2
一种基于训练与压缩分层的分布式模型训练方法及系统
分布式模型 云端服务器 节点 分层 分布式机器学习技术
3
一种数据处理方法、装置、设备和存储介质
网络功能虚拟化平台 网络服务器 报文 访问控制列表 密钥管理中心
4
基于云边端协同的分布式新能源数据调度处理方法
分布式新能源 异常数据检测 任务调度模型 任务调度策略 终端设备
5
一种网络安全任务调度方法及系统
任务调度方法 决策 表征系统 矩阵 队列数据结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号