摘要
本发明提供一种基于动态资源调度的大语言模型分布式训练方法及系统,通过以周期性时间间隔采集各计算节点的资源状态数据,从而在当前训练批次,将大语言模型的训练任务划分为多类子任务,并基于各计算节点的资源状态数据以及各类子任务的任务描述数据,利用强化学习策略将各类子任务以最优比例分配至最优的计算节点;此外,采用梯度压缩算法对计算节点上产生的梯度数据进行压缩,并结合所述计算节点的当前网络带宽利用率动态调整所述梯度数据的压缩率;参数服务器进而基于参数同步间隔对不同计算节点压缩后的梯度数据进行加权融合,基于融合结果更新全局模型参数,并将全局模型参数广播至各个计算节点,能够显著提升大语言模型的训练效率。
技术关键词
分布式训练方法
动态资源调度
节点
网络带宽利用率
检查点
强化学习策略
快照
压缩算法
数据分布特征
参数
一致性协议
分布式训练系统
校验模型
时间序列数据库
编码算法
周期性
系统为您推荐了相关专利信息
通信光缆
巡检路径
数字孪生模型
长短期记忆网络
故障预测数据
球阀组件
模糊层次分析法
规划系统
工艺规划方法
刀具
能力评价模型
能力评价方法
评价系统
网络结构
贝叶斯网络模型