基于动态资源调度的大语言模型分布式训练方法及系统

AITNT
正文
推荐专利
基于动态资源调度的大语言模型分布式训练方法及系统
申请号:CN202510764976
申请日期:2025-06-10
公开号:CN120278283B
公开日期:2025-09-02
类型:发明专利
摘要
本发明提供一种基于动态资源调度的大语言模型分布式训练方法及系统,通过以周期性时间间隔采集各计算节点的资源状态数据,从而在当前训练批次,将大语言模型的训练任务划分为多类子任务,并基于各计算节点的资源状态数据以及各类子任务的任务描述数据,利用强化学习策略将各类子任务以最优比例分配至最优的计算节点;此外,采用梯度压缩算法对计算节点上产生的梯度数据进行压缩,并结合所述计算节点的当前网络带宽利用率动态调整所述梯度数据的压缩率;参数服务器进而基于参数同步间隔对不同计算节点压缩后的梯度数据进行加权融合,基于融合结果更新全局模型参数,并将全局模型参数广播至各个计算节点,能够显著提升大语言模型的训练效率。
技术关键词
分布式训练方法 动态资源调度 节点 网络带宽利用率 检查点 强化学习策略 快照 压缩算法 数据分布特征 参数 一致性协议 分布式训练系统 校验模型 时间序列数据库 编码算法 周期性
系统为您推荐了相关专利信息
1
一种FPGA互连资源遍历测试方法
遍历测试方法 互连线 资源 功能模块 有向图模型
2
一种数据处理方法、装置及介质
大语言模型 数据处理方法 节点 聚类 语义
3
一种基于数字孪生的港口通信光缆路由检测方法及系统
通信光缆 巡检路径 数字孪生模型 长短期记忆网络 故障预测数据
4
一种球阀组件多目标柔性工艺规划系统及方法
球阀组件 模糊层次分析法 规划系统 工艺规划方法 刀具
5
基于贝叶斯网络的能力评价方法和系统
能力评价模型 能力评价方法 评价系统 网络结构 贝叶斯网络模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号