一种分布式数据并行训练中的弹性资源调整方法

正文

推荐专利

申请号：CN202510947207

申请日期：2025-07-10

公开号：CN120448040B

公开日期：2025-09-26

类型：发明专利

摘要

本发明涉及一种分布式数据并行训练中的弹性资源调整方法，包括：步骤一：利用性能监控模块实时监测作业性能；步骤二：依据预设适应性函数评估及重分配惩罚机制进行综合考量，对当前集群的资源状况进行全面评估；当通过适应性函数判断不进行重调度会严重影响集群性能时，迅速启动重调度流程；步骤三：根据对适应性函数的持续监测与评估，判断需要对哪些作业执行何种弹性操作；同时，依据弹性调整目标，运用智能节点筛选算法从可用节点池中挑选出最适合的节点；步骤四：执行弹性调度策略，实际进行资源的弹性调整操作；针对于不同作业的不同弹性操作，通过增量式通信拓扑重构机制和梯度缓存与插值补偿机制，实现资源的动态调整与优化配置。

技术关键词

资源分配网络带宽利用率数据迁移机制弹性调度智能节点筛选算法监测作业集群监控系统性能监控动态资源配置参数插值算法重构通信拓扑结构生成树拓扑

一种分布式数据并行训练中的弹性资源调整方法

站点导航

APP 下载