大语言模型训练方法和推理方法

正文

推荐专利

大语言模型训练方法和推理方法

申请号：CN202511020283

申请日期：2025-07-23

公开号：CN120875045A

公开日期：2025-10-31

类型：发明专利

摘要

本公开提出了一种LLM训练方法和推理方法。LLM具有堆叠的L个层，L个层具有相同的内部结构并且各自包括MoE子层，每个MoE子层包括门控模块和多个专家模块，该训练方法包括：从L个层中选择M个层；对M个层中的M个MoE子层进行分组；以及将同一分组内的不同MoE子层的多个专家模块配置为引用同一组可训练权重参数；以及基于训练数据对经配置后的LLM进行训练。由此得到的LLM的同一分组内的MoE子层共享专家池参数。通过为MoE架构引入重参数机制，复用动态路由的专家参数，能在激活可用的专家池空间和激活参数量保持不变的前提下，有效压缩模型整体参数量，进而降低部署所需内存，以更好地适配各类端侧设备的需求。

技术关键词

推理方法计算机程序指令模块深度学习模型大语言模型参数计算机程序产品处理器文本终端设备数据内存语音存储器机制动态图像

系统为您推荐了相关专利信息

一种基于多源数据的复杂地质体建模方法

体建模方法关键点岩体模型数据柱状

一种大功率方波和正弦波双路输出电源结构

双路输出电源 IGBT芯片输入输出模块谐振电感电路模块

一种外网驱动型内外网安全隔离编译系统

编译系统内外网物理隔离服务器软件包管理页面

一种通用型空间氧平衡装置

制氧模块平衡装置控制模块通用型人机交互模块

一种视频理解的处理方法、装置、设备以及存储介质

大语言模型文本视频段非易失性可读存储介质样本

大语言模型训练方法和推理方法

站点导航

APP 下载