一种分布式数据并行训练中的弹性资源调整方法

AITNT
正文
推荐专利
一种分布式数据并行训练中的弹性资源调整方法
申请号:CN202510947207
申请日期:2025-07-10
公开号:CN120448040B
公开日期:2025-09-26
类型:发明专利
摘要
本发明涉及一种分布式数据并行训练中的弹性资源调整方法,包括:步骤一:利用性能监控模块实时监测作业性能;步骤二:依据预设适应性函数评估及重分配惩罚机制进行综合考量,对当前集群的资源状况进行全面评估;当通过适应性函数判断不进行重调度会严重影响集群性能时,迅速启动重调度流程;步骤三:根据对适应性函数的持续监测与评估,判断需要对哪些作业执行何种弹性操作;同时,依据弹性调整目标,运用智能节点筛选算法从可用节点池中挑选出最适合的节点;步骤四:执行弹性调度策略,实际进行资源的弹性调整操作;针对于不同作业的不同弹性操作,通过增量式通信拓扑重构机制和梯度缓存与插值补偿机制,实现资源的动态调整与优化配置。
技术关键词
资源分配 网络带宽利用率 数据迁移 机制 弹性调度 智能节点 筛选算法 监测作业 集群监控系统 性能监控 动态 资源配置参数 插值算法 重构 通信拓扑结构 生成树拓扑
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号