摘要
本发明提供一种分布式训练系统,属于人工智能技术领域,所述系统包括:将训练数据集切分为多个数据子集并分发至各计算节点的数据分布模块;将各分桶内各计算节点模型训练时产生的局部梯度融合成第一融合梯度的横向梯度融合模块;接收第一融合梯度,并将对应配置的全局梯度权重配发给每个相关的计算节点,以更新初始梯度权重的全局服务器。本发明在计算节点利用数据子集完成模型训练之后,通过横向梯度融合模块融合各计算节点产生的局部梯度,并将融合后的第一融合梯度统一发送给全局服务器,无需各计算节点各自将其产生的局部梯度发送给全局服务器,避免了频繁通信导致分布式系统通信开销大、训练效率降低的问题。
技术关键词
分布式训练系统
节点
数据分布
服务器
分布式系统通信
模块
标识符
人工智能技术
模式
系统为您推荐了相关专利信息
模拟模型
环境图像信息
粒子群优化算法
神经网络模型
货物位置信息
文本
生成方法
大语言模型
相似性判断方法
搜索算法
虚拟机构建方法
数据处理单元
节点
资源分配模块
中央处理器