一种面向分布式模型训练的网内多跳梯度汇聚方法

正文

推荐专利

申请号：CN202410874961

申请日期：2024-07-02

公开号：CN118863014A

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种面向分布式模型训练的网内多跳梯度汇聚方法，该方法由控制器根据网络状态计算分布式模型训练的网内多跳梯度汇聚结构，并根据所计算的网内多跳梯度汇聚结构标记各训练节点所发送的梯度分片，利用可编程交换机可以灵活解析数据包的特点，在梯度分片经过可编程交换机时，通过多个可编程交换机协作执行梯度分片在数据中心网络内的多次汇聚与转发，从而大量缩减模型梯度通信所产生的网络流量，同时增加了分布式模型训练的吞吐量，加速了模型训练。

技术关键词

可编程交换机服务器节点分片分布式模型汇聚方法标记内存训练系统网络控制器数据中心代表

系统为您推荐了相关专利信息

一种适应多情景降水的外排受限城乡圩区多策略协同治涝方法

情景多策略融合受限移动泵站联合调度方法

用于元宇宙电商平台的区块链加密和深度学习检索的方法

动态资源调度算法零知识证明协议商品特征同态加密技术电商

多链路移动互联通信中的隐私保护方法

移动路由器移动互联通信隐私保护方法分片 SM4算法

一种基于区块链的云数据分布式存储方法及系统

检索标签数据分析模型分布式存储网络实时数据策略

一种基于云平台的分布式医学影像数据存储方法

分片云平台站点联合损失函数标识符

一种面向分布式模型训练的网内多跳梯度汇聚方法

站点导航

APP 下载