一种基于Fast Parallelism框架的大语言模型训练加速方法及装置

AITNT
正文
推荐专利
一种基于Fast Parallelism框架的大语言模型训练加速方法及装置
申请号:CN202411822757
申请日期:2024-12-12
公开号:CN119808869A
公开日期:2025-04-11
类型:发明专利
摘要
本发明提出了一种基于Fast Parallelism框架的大语言模型训练加速方法及装置。本发明采用FastParallelism框架在多个GPU上对大语言模型进行训练,Fast Parallelism框架包括张量并行模块、数据并行模块和超参数调节模块;其中,在进行大语言模型训练时,在超参数调节模块设置每次迭代中训练的样本数batch‑size和梯度累计Gradient accumulation;在数据并行模块采用Deepspeed ZeRO数据并行处理策略;在张量并行模块,通过2维、4维上进行分割张量,并结合数据并行模块和超参数调节模块进行大语言模型加速训练。本发明创新设计了FastParallelism框架,该框架采用模块化设计,运用了数据并行和张量并行以及超参数调整等策略,能够对计算机系统的内部性能进行改善,在有限资源条件下,提高大模型训练速度。
技术关键词
大语言模型 参数调节模块 数据并行处理 框架 优化器 超参数 计算机存储介质 进程 加速装置 处理器 计算机系统 策略 存储器 分区 内存 阶段 资源
系统为您推荐了相关专利信息
1
一种基于生成对抗网络数据增强的运动想象脑电数据生成器
运动想象脑电数据 数据生成模型 原始脑电信号 脑机接口系统设计 注意力
2
一种基于知识图谱的短视频优化方法、装置、计算机设备及可读存储介质
短视频 视频优化方法 大语言模型 集群 图谱
3
一种智能化个性化学习路径推荐系统
个性化学习路径 推荐系统 知识点 三维路径规划 强化学习框架
4
一种爬壁清洗机器人用防坠器锁死脱扣提升装置
爬壁清洗机器人 框架组件 提升装置 框架主体 滑轮
5
基于大语言模型推理及检索增强的漏洞描述及修复建议生成方法
建议生成方法 大语言模型 漏洞知识库 节点 解析工具
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号