一种分布式训练的集合通信控制方法、装置及介质

AITNT
正文
推荐专利
一种分布式训练的集合通信控制方法、装置及介质
申请号:CN202411863321
申请日期:2024-12-17
公开号:CN119336451B
公开日期:2025-06-13
类型:发明专利
摘要
本申请公开了一种分布式训练的集合通信控制方法、装置及介质,该方法包括:当参与数据归约的集群中,任意两个集群之间的计算节点数量的差距在预设范围内时,将第一集群内所有计算节点上的数据归约至指定计算节点上,指定计算节点的数量与计算节点数量最小的第二集群内计算节点的数量相同。控制指定计算节点与第二集群内的计算节点进行数据归约;控制指定计算节点与第一集群内除指定计算节点外的其他节点数据同步。由此,除计算节点数量最少的集群外的其他集群,先在集群内部进行一次归约,将数据归约至数量与各集群中最少节点的数量相同的指定计算节点上,保证跨集群归约时各集群节点相同,避免一些节点同时和多个节点归约,降低集合通信开销。
技术关键词
集群 分布式训练 节点 通信控制方法 通信控制装置 数据同步 处理器 语义 可读存储介质 存储器 模块 程序 计算机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号