一种用于AI模型训练的分布式调度训练方法

AITNT
正文
推荐专利
一种用于AI模型训练的分布式调度训练方法
申请号:CN202510657624
申请日期:2025-05-21
公开号:CN120216205A
公开日期:2025-06-27
类型:发明专利
摘要
本发明涉及人工智能训练技术领域,属于一种用于AI模型训练的分布式调度训练方法,包括API网关、资源监控模块、动态调度模块、节点训练模块以及结果保存和容错处理模块。本发明能够实现模型训练的动态资源感知,动态分配训练节点,模型分片能够根据节点负载动态调整分片策略,聚合算法能够减少通信开销,特别是异构环境下的处理,两者的结合实现更高效的训练,支持动态节点的添加和移除。并且能够修正网络较差导致的节点处理的分片数量偏差,抑制模型分片引发的更新不一致,支持弹性扩缩容的无缝衔接节点故障导致的训练失败能够自动调度其他节点继续训练。
技术关键词
节点 资源监控 虚拟化资源池 模块 动态 分片策略 拉格朗日乘数法 扩展单元 同步算法 网关 补偿算法 资源分配 偏差 客户端 物理 网络 异构 数据
系统为您推荐了相关专利信息
1
一种工业物流物料搬运调度系统及方法
物料搬运 中央调度系统 机械臂抓取系统 协同路径规划 无人化作业
2
一种依据道岔电流特征故障诊断方法、系统、设备及介质
道岔 故障诊断方法 电流 轮廓系数 异常数据
3
一种区域级光伏功率预测方法、系统、设备及介质
光伏功率预测方法 判别模块 光伏电站 生成对抗网络模型 气象
4
一种实现数字化高精度控制的激光切割机
激光切割机 机器学习模型 模块 指标 功率
5
云雾条件下的光学-SAR融合目标检测方法
特征检测器 注意力 卷积特征 光学遥感影像 特征金字塔网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号