一种基于Fast Parallelism框架的大语言模型训练加速方法及装置

正文

推荐专利

申请号：CN202411822757

申请日期：2024-12-12

公开号：CN119808869A

公开日期：2025-04-11

类型：发明专利

摘要

本发明提出了一种基于Fast Parallelism框架的大语言模型训练加速方法及装置。本发明采用FastParallelism框架在多个GPU上对大语言模型进行训练，Fast Parallelism框架包括张量并行模块、数据并行模块和超参数调节模块；其中，在进行大语言模型训练时，在超参数调节模块设置每次迭代中训练的样本数batch‑size和梯度累计Gradient accumulation；在数据并行模块采用Deepspeed ZeRO数据并行处理策略；在张量并行模块，通过2维、4维上进行分割张量，并结合数据并行模块和超参数调节模块进行大语言模型加速训练。本发明创新设计了FastParallelism框架，该框架采用模块化设计，运用了数据并行和张量并行以及超参数调整等策略，能够对计算机系统的内部性能进行改善，在有限资源条件下，提高大模型训练速度。

技术关键词

大语言模型参数调节模块数据并行处理框架优化器超参数计算机存储介质进程加速装置处理器计算机系统策略存储器分区内存阶段资源

系统为您推荐了相关专利信息

一种基于生成对抗网络数据增强的运动想象脑电数据生成器

运动想象脑电数据数据生成模型原始脑电信号脑机接口系统设计注意力

一种基于知识图谱的短视频优化方法、装置、计算机设备及可读存储介质

短视频视频优化方法大语言模型集群图谱

一种智能化个性化学习路径推荐系统

个性化学习路径推荐系统知识点三维路径规划强化学习框架

一种爬壁清洗机器人用防坠器锁死脱扣提升装置

爬壁清洗机器人框架组件提升装置框架主体滑轮

基于大语言模型推理及检索增强的漏洞描述及修复建议生成方法

建议生成方法大语言模型漏洞知识库节点解析工具

一种基于Fast Parallelism框架的大语言模型训练加速方法及装置

站点导航

APP 下载