摘要
本发明公开一种面向大语言模型的训练自动并行转换方法及系统,针对训练运行时的大语言模型,先对大语言模型结构进行静态代码分析,搜寻和标记并行架构转换切入点,同时将大语言模型转换成与具体实现无关的中间表示;接着利用中间表示信息填充并行架构代码模版,搭建得到大语言模型并行架构;然后在新一轮次完整训练开始前,由更新器运行生成代码,使并行架构替换生效,同时迁移大语言模型参数权重及中间结果;最后存储大语言模型架构及参数权重,使之能够重加载以用于推理。本发明具有在计算资源变化的动态场景下支持训练运行时模型并行转换,保证大语言模型训练作业的连续性,提升计算资源利用率和大语言模型训练效率等优点。
技术关键词
大语言模型
转换方法
并行策略
静态代码分析
代码生成方法
模版
深度学习框架
抽象语法树
生成代码
训练文本数据
参数
多头注意力机制
模型预训练
计算机设备
归一化模块
分片
可读存储介质
深度学习模型
关键字
系统为您推荐了相关专利信息
关系抽取模型
细粒度分类
列表
策略
Softmax分类器
模型构建装置
数据库服务器
应用服务器
客户终端
数据标签
动态知识图谱
产品推荐方法
计算机可读指令
生成产品
产品推荐装置
大语言模型
审计方法
Paillier加密方法
适配器
跨模态