摘要
本发明公开了一种面向分布式训练集群通信的路由优化方法。该方法包含流量分析组件和路由优化组件两部分,均在软件定义网络的集中式控制平面实现。其中,流量分析组件需要感知应用层具体采用的通信模式,以及网络管理员设置的节点分配,进而得到相关的流量信息,包括每一条流的起点、目的点、传输的数据量,以及流量之间的依赖关系。路由优化组件则基于得到的任务流量信息以及网络拓扑实现无阻塞的路由分配。本发明面向分布式机器学习的数据中心训练集群中,通过感知任务集群通信流量,进行路由优化,实现整体的无阻塞流量通信,降低训练的通信开销,任务完成时间得到进一步提升,在当前主流的大模型训练等场景具有应用价值。
技术关键词
分布式训练
接入层交换机
集群通信
核心层交换机
分析组件
整数线性规划模型
网络拓扑
面向分布式机器学习
软件定义网络
无阻塞
贪婪策略
节点
模式
数据中心
矩阵
阶段
关系