摘要
提供了一种分布式数据并行训练的方法和设备。所述方法包括:在第一训练轮次期间,通过多个计算节点之中的第i计算节点的第i加速器基于训练数据集中的第i训练数据子集执行神经网络的对应副本的训练,其中,所述多个计算节点中的每个保存所述神经网络模型的对应副本;将由第i加速器生成的第i冻结层数据存储到第i计算节点的第i池化内存;将来自第i池化内存的第i冻结层数据存储到共享内存,以在后续的训练轮次期间被其他计算节点重用,其中,共享内存基于计算快速链路CXL协议被所述多个计算节点共用,其中,i是大于零且小于等于M的整数,M是所述多个计算节点的数量。
技术关键词
节点
加速器
神经网络模型
内存
数据存储
副本
链路
协议
处理器
存储模块
可读存储介质
指令
进程
计算机
参数
系统为您推荐了相关专利信息
分布式边缘
多任务神经网络
分布式传输方法
播放设备
同步方法
山火监测
多模态传感器
预警系统
传感器节点
网络单元
个性化网络服务
通信网络节点
资源分配方法
代表
链路
外加剂
参数
人工神经网络
机器学习算法
数据处理技术