摘要
本申请提供针对深度神经网络的流水线并行分布式训练方法、装置及系统,方法包括:将构成当前批次训练数据的各组小批次训练数据依次经光网络传输至边缘服务器,以使其与云服务器协同光网络以通信与训练解耦方式分别对构成深度神经网络的不同子任务模型进行异步并行协同训练,并由边缘服务器依次输出各组小批次训练数据对应的梯度;依次接收各组小批次训练数据各自的梯度。本申请能够保证模型训练过程中数据的正确传递,并能降低训练过程中的通信开销,能够实现设备之间的负载均衡并能够提高模型训练效率、有效性以及参与训练的设备资源利用率。
技术关键词
深度神经网络
分布式训练方法
流水线
光网络控制器
数据
分布式训练系统
云服务器
网络通信
分区
终端设备
处理器
可读存储介质
消息
存储器
有效性