摘要
本申请实施例提供了一种集合通信方法、CXL交换设备及计算设备,应用于模型训练系统的CXL交换设备,CXL交换设备通过CXL协议与多个计算节点中各计算节点的本地内存通信连接;各计算节点通过CXL交换设备与共享内存通信连接;基于CXL协议获取各计算节点的本地内存中的梯度数据;梯度数据是计算节点训练本地部署的目标模型得到的;基于各计算节点的梯度数据计算融合梯度,并将融合梯度存储在共享内存;融合梯度用于各计算节点更新本地部署的目标模型的参数。能够大大减少梯度数据的传输轮次,并且,在模型训练系统中引入CXL交换设备,全程通过CXL协议传输数据,无需通过网络传输数据,显著提高了梯度数据的传输效率,进而有效提高分布式模型训练的效率。
技术关键词
交换设备
模型训练系统
集合通信方法
共享内存通信
计算机程序指令
分布式训练
层级
协议
控制器
存储器
节点更新
数据存储
分布式模型
端口
参数
消息
系统为您推荐了相关专利信息
影像
数据拼接方法
计算机程序指令
移动立方体算法
计算机设备
实时监控系统
车间
烟雾传感器
计算机程序指令
数字孪生