大语言模型训练方法和推理方法

AITNT
正文
推荐专利
大语言模型训练方法和推理方法
申请号:CN202511020283
申请日期:2025-07-23
公开号:CN120875045A
公开日期:2025-10-31
类型:发明专利
摘要
本公开提出了一种LLM训练方法和推理方法。LLM具有堆叠的L个层,L个层具有相同的内部结构并且各自包括MoE子层,每个MoE子层包括门控模块和多个专家模块,该训练方法包括:从L个层中选择M个层;对M个层中的M个MoE子层进行分组;以及将同一分组内的不同MoE子层的多个专家模块配置为引用同一组可训练权重参数;以及基于训练数据对经配置后的LLM进行训练。由此得到的LLM的同一分组内的MoE子层共享专家池参数。通过为MoE架构引入重参数机制,复用动态路由的专家参数,能在激活可用的专家池空间和激活参数量保持不变的前提下,有效压缩模型整体参数量,进而降低部署所需内存,以更好地适配各类端侧设备的需求。
技术关键词
推理方法 计算机程序指令 模块 深度学习模型 大语言模型 参数 计算机程序产品 处理器 文本 终端设备 数据 内存 语音 存储器 机制 动态 图像
系统为您推荐了相关专利信息
1
一种基于多源数据的复杂地质体建模方法
体建模方法 关键点 岩体模型 数据 柱状
2
一种大功率方波和正弦波双路输出电源结构
双路输出电源 IGBT芯片 输入输出模块 谐振电感 电路模块
3
一种外网驱动型内外网安全隔离编译系统
编译系统 内外网物理隔离 服务器 软件包 管理页面
4
一种通用型空间氧平衡装置
制氧模块 平衡装置 控制模块 通用型 人机交互模块
5
一种视频理解的处理方法、装置、设备以及存储介质
大语言模型 文本 视频段 非易失性可读存储介质 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号