摘要
本发明涉及人工智能训练技术领域,属于一种用于AI模型训练的分布式调度训练方法,包括API网关、资源监控模块、动态调度模块、节点训练模块以及结果保存和容错处理模块。本发明能够实现模型训练的动态资源感知,动态分配训练节点,模型分片能够根据节点负载动态调整分片策略,聚合算法能够减少通信开销,特别是异构环境下的处理,两者的结合实现更高效的训练,支持动态节点的添加和移除。并且能够修正网络较差导致的节点处理的分片数量偏差,抑制模型分片引发的更新不一致,支持弹性扩缩容的无缝衔接节点故障导致的训练失败能够自动调度其他节点继续训练。
技术关键词
节点
资源监控
虚拟化资源池
模块
动态
分片策略
拉格朗日乘数法
扩展单元
同步算法
网关
补偿算法
资源分配
偏差
客户端
物理
网络
异构
数据
系统为您推荐了相关专利信息
物料搬运
中央调度系统
机械臂抓取系统
协同路径规划
无人化作业
光伏功率预测方法
判别模块
光伏电站
生成对抗网络模型
气象
特征检测器
注意力
卷积特征
光学遥感影像
特征金字塔网络