一种面向分布式模型训练的拥塞控制方法、设备及介质

正文

推荐专利

申请号：CN202510573513

申请日期：2025-05-06

公开号：CN120389985A

公开日期：2025-07-29

类型：发明专利

摘要

本发明涉及计算机网络技术领域，公开了一种面向分布式模型训练的拥塞控制方法、设备及介质。方法包括：协同交换机收到本地梯度数据包时，根据对应的字段更新任务总通信量表中的各训练任务需要传输的总通信量；协同交换机收到全局梯度数据包时，根据对应的字段更新任务总通信量表中的各个训练任务剩余通信量，并广播至各工作节点，使工作节点更新剩余通信量表中的各个训练任务的剩余通信量；当检测到网络拥塞时，计算实时比例，通过增函数动态调整各训练任务对应的工作节点的发送速率；通过让工作节点感知其他训练任务的存在，获取其他训练任务在当前迭代轮次通信阶段剩余通信量，让剩余通信量较少的训练任务获得更大带宽，从而实现通信阶段的交错，提高链路利用率。

技术关键词

通信量拥塞控制方法分布式模型交换机节点更新计算机网络技术阶段速率服务器内容更新处理器计算机设备动态参数可读存储介质存储器数值

一种面向分布式模型训练的拥塞控制方法、设备及介质

站点导航

APP 下载