一种用于AI模型训练的分布式调度训练方法

正文

推荐专利

申请号：CN202510657624

申请日期：2025-05-21

公开号：CN120216205A

公开日期：2025-06-27

类型：发明专利

摘要

本发明涉及人工智能训练技术领域，属于一种用于AI模型训练的分布式调度训练方法，包括API网关、资源监控模块、动态调度模块、节点训练模块以及结果保存和容错处理模块。本发明能够实现模型训练的动态资源感知，动态分配训练节点，模型分片能够根据节点负载动态调整分片策略，聚合算法能够减少通信开销，特别是异构环境下的处理，两者的结合实现更高效的训练，支持动态节点的添加和移除。并且能够修正网络较差导致的节点处理的分片数量偏差，抑制模型分片引发的更新不一致，支持弹性扩缩容的无缝衔接节点故障导致的训练失败能够自动调度其他节点继续训练。

技术关键词

节点资源监控虚拟化资源池模块动态分片策略拉格朗日乘数法扩展单元同步算法网关补偿算法资源分配偏差客户端物理网络异构数据

系统为您推荐了相关专利信息

一种工业物流物料搬运调度系统及方法

物料搬运中央调度系统机械臂抓取系统协同路径规划无人化作业

一种依据道岔电流特征故障诊断方法、系统、设备及介质

道岔故障诊断方法电流轮廓系数异常数据

一种区域级光伏功率预测方法、系统、设备及介质

光伏功率预测方法判别模块光伏电站生成对抗网络模型气象

一种实现数字化高精度控制的激光切割机

激光切割机机器学习模型模块指标功率

云雾条件下的光学-SAR融合目标检测方法

特征检测器注意力卷积特征光学遥感影像特征金字塔网络

一种用于AI模型训练的分布式调度训练方法

站点导航

APP 下载