摘要
本公开提供了一种跨算力集群通信方法、装置、电子设备及存储介质,涉及图形处理器、算力集群、模型训练、生成式大语言模型等技术领域。该方法包括:响应于与通信接收端分别归属于不同的算力集群,将RDMA连接数在初始连接数的基础上进行连接数增大处理直至探测到的实际带宽值不再继续增大,得到目标连接数;在保持目标连接数的情况下,将Buffer大小在初始大小的基础上进行大小增大处理直至探测到的实际宽带值不再继续增大,得到目标大小;基于目标连接数和目标大小,确定跨集群传输参数;按跨集群传输参数与归属于不同的算力集群的通信接收端通信。应用该方法可提升整体通信效率、数据传输量,也提升了生成式大语言模型的训练效率、缩短了训练所需耗时。
技术关键词
集群通信方法
接收端
时延
指数
大语言模型
图形处理器
线性
处理单元
基础
策略
参数
探测单元
网卡
机房
电子设备
控制单元
计算机
系统为您推荐了相关专利信息
预测评估方法
土地利用数据
栅格
指数
保障粮食安全
地表反射率
指数
遥感识别方法
构建预测模型
断点
视频帧特征
视频生成方法
序列
大语言模型
噪声图像