摘要
本发明提出了一种基于Fast Parallelism框架的大语言模型训练加速方法及装置。本发明采用FastParallelism框架在多个GPU上对大语言模型进行训练,Fast Parallelism框架包括张量并行模块、数据并行模块和超参数调节模块;其中,在进行大语言模型训练时,在超参数调节模块设置每次迭代中训练的样本数batch‑size和梯度累计Gradient accumulation;在数据并行模块采用Deepspeed ZeRO数据并行处理策略;在张量并行模块,通过2维、4维上进行分割张量,并结合数据并行模块和超参数调节模块进行大语言模型加速训练。本发明创新设计了FastParallelism框架,该框架采用模块化设计,运用了数据并行和张量并行以及超参数调整等策略,能够对计算机系统的内部性能进行改善,在有限资源条件下,提高大模型训练速度。
技术关键词
大语言模型
参数调节模块
数据并行处理
框架
优化器
超参数
计算机存储介质
进程
加速装置
处理器
计算机系统
策略
存储器
分区
内存
阶段
资源
系统为您推荐了相关专利信息
运动想象脑电数据
数据生成模型
原始脑电信号
脑机接口系统设计
注意力
个性化学习路径
推荐系统
知识点
三维路径规划
强化学习框架
爬壁清洗机器人
框架组件
提升装置
框架主体
滑轮
建议生成方法
大语言模型
漏洞知识库
节点
解析工具