摘要
本发明涉及计算机网络技术领域,公开了一种面向分布式模型训练的拥塞控制方法、设备及介质。方法包括:协同交换机收到本地梯度数据包时,根据对应的字段更新任务总通信量表中的各训练任务需要传输的总通信量;协同交换机收到全局梯度数据包时,根据对应的字段更新任务总通信量表中的各个训练任务剩余通信量,并广播至各工作节点,使工作节点更新剩余通信量表中的各个训练任务的剩余通信量;当检测到网络拥塞时,计算实时比例,通过增函数动态调整各训练任务对应的工作节点的发送速率;通过让工作节点感知其他训练任务的存在,获取其他训练任务在当前迭代轮次通信阶段剩余通信量,让剩余通信量较少的训练任务获得更大带宽,从而实现通信阶段的交错,提高链路利用率。
技术关键词
通信量
拥塞控制方法
分布式模型
交换机
节点更新
计算机网络技术
阶段
速率
服务器
内容更新
处理器
计算机设备
动态
参数
可读存储介质
存储器
数值