基于动态资源调度的大语言模型分布式训练方法及系统

正文

推荐专利

申请号：CN202510764976

申请日期：2025-06-10

公开号：CN120278283B

公开日期：2025-09-02

类型：发明专利

摘要

本发明提供一种基于动态资源调度的大语言模型分布式训练方法及系统，通过以周期性时间间隔采集各计算节点的资源状态数据，从而在当前训练批次，将大语言模型的训练任务划分为多类子任务，并基于各计算节点的资源状态数据以及各类子任务的任务描述数据，利用强化学习策略将各类子任务以最优比例分配至最优的计算节点；此外，采用梯度压缩算法对计算节点上产生的梯度数据进行压缩，并结合所述计算节点的当前网络带宽利用率动态调整所述梯度数据的压缩率；参数服务器进而基于参数同步间隔对不同计算节点压缩后的梯度数据进行加权融合，基于融合结果更新全局模型参数，并将全局模型参数广播至各个计算节点，能够显著提升大语言模型的训练效率。

技术关键词

分布式训练方法动态资源调度节点网络带宽利用率检查点强化学习策略快照压缩算法数据分布特征参数一致性协议分布式训练系统校验模型时间序列数据库编码算法周期性

系统为您推荐了相关专利信息

一种FPGA互连资源遍历测试方法

遍历测试方法互连线资源功能模块有向图模型

一种数据处理方法、装置及介质

大语言模型数据处理方法节点聚类语义

一种基于数字孪生的港口通信光缆路由检测方法及系统

通信光缆巡检路径数字孪生模型长短期记忆网络故障预测数据

一种球阀组件多目标柔性工艺规划系统及方法

球阀组件模糊层次分析法规划系统工艺规划方法刀具

基于贝叶斯网络的能力评价方法和系统

能力评价模型能力评价方法评价系统网络结构贝叶斯网络模型

基于动态资源调度的大语言模型分布式训练方法及系统

站点导航

APP 下载