一种面向大语言模型的训练自动并行转换方法及系统

正文

推荐专利

申请号：CN202510462902

申请日期：2025-04-14

公开号：CN120297235A

公开日期：2025-07-11

类型：发明专利

摘要

本发明公开一种面向大语言模型的训练自动并行转换方法及系统，针对训练运行时的大语言模型，先对大语言模型结构进行静态代码分析，搜寻和标记并行架构转换切入点，同时将大语言模型转换成与具体实现无关的中间表示；接着利用中间表示信息填充并行架构代码模版，搭建得到大语言模型并行架构；然后在新一轮次完整训练开始前，由更新器运行生成代码，使并行架构替换生效，同时迁移大语言模型参数权重及中间结果；最后存储大语言模型架构及参数权重，使之能够重加载以用于推理。本发明具有在计算资源变化的动态场景下支持训练运行时模型并行转换，保证大语言模型训练作业的连续性，提升计算资源利用率和大语言模型训练效率等优点。

技术关键词

大语言模型转换方法并行策略静态代码分析代码生成方法模版深度学习框架抽象语法树生成代码训练文本数据参数多头注意力机制模型预训练计算机设备归一化模块分片可读存储介质深度学习模型关键字

系统为您推荐了相关专利信息

意图感知的检索路径动态选择与优化方法、系统及设备

关系抽取模型细粒度分类列表策略 Softmax分类器

基于操作系统中断思想的智能体多任务对话管理方法

对话管理方法消息操作系统会议多任务

一种基于能源大数据的区域碳排放模型构建方法和装置

模型构建装置数据库服务器应用服务器客户终端数据标签

一种产品推荐方法、装置、计算机设备及存储介质

动态知识图谱产品推荐方法计算机可读指令生成产品产品推荐装置

基于大语言模型的审计方法与系统

大语言模型审计方法 Paillier加密方法适配器跨模态

一种面向大语言模型的训练自动并行转换方法及系统

站点导航

APP 下载