摘要
本发明公开了一种面向分布式模型训练的网内多跳梯度汇聚方法,该方法由控制器根据网络状态计算分布式模型训练的网内多跳梯度汇聚结构,并根据所计算的网内多跳梯度汇聚结构标记各训练节点所发送的梯度分片,利用可编程交换机可以灵活解析数据包的特点,在梯度分片经过可编程交换机时,通过多个可编程交换机协作执行梯度分片在数据中心网络内的多次汇聚与转发,从而大量缩减模型梯度通信所产生的网络流量,同时增加了分布式模型训练的吞吐量,加速了模型训练。
技术关键词
可编程交换机
服务器节点
分片
分布式模型
汇聚方法
标记
内存
训练系统
网络
控制器
数据中心
代表
系统为您推荐了相关专利信息
动态资源调度算法
零知识证明协议
商品特征
同态加密技术
电商
移动路由器
移动互联通信
隐私保护方法
分片
SM4算法
检索标签
数据分析模型
分布式存储网络
实时数据
策略