摘要
本发明涉及一种分布式数据并行训练中的弹性资源调整方法,包括:步骤一:利用性能监控模块实时监测作业性能;步骤二:依据预设适应性函数评估及重分配惩罚机制进行综合考量,对当前集群的资源状况进行全面评估;当通过适应性函数判断不进行重调度会严重影响集群性能时,迅速启动重调度流程;步骤三:根据对适应性函数的持续监测与评估,判断需要对哪些作业执行何种弹性操作;同时,依据弹性调整目标,运用智能节点筛选算法从可用节点池中挑选出最适合的节点;步骤四:执行弹性调度策略,实际进行资源的弹性调整操作;针对于不同作业的不同弹性操作,通过增量式通信拓扑重构机制和梯度缓存与插值补偿机制,实现资源的动态调整与优化配置。
技术关键词
资源分配
网络带宽利用率
数据迁移
机制
弹性调度
智能节点
筛选算法
监测作业
集群监控系统
性能监控
动态
资源配置参数
插值算法
重构
通信拓扑结构
生成树拓扑