基于双重预测的内存受限设备MoE大模型推理优化系统及方法

正文

推荐专利

申请号：CN202510699220

申请日期：2025-05-28

公开号：CN120610905A

公开日期：2025-09-09

类型：发明专利

摘要

基于双重预测的内存受限设备MoE大模型推理优化系统及方法，属于MoE大模型推理优化技术领域。为解决优化基于MoE的LLM在内存受限设备上的推理性能，本发明包括逐层预测器，逐token预测器，专家管理模块，所述专家管理模块包括专家缓存、临时专家缓冲区和I/O调度器。逐层预测器连接逐token预测器，逐层预测器和逐token预测器分别连接I/O调度器，逐token预测器连接专家缓存，I/O调度器分别连接临时专家缓冲区和专家缓存。本发明创新性地提出了预测式专家Cache、临时专家缓冲区以及逐token预取技术；本发明使得推理系统能够使用较少的内存资源，明显地提升LLM的推理速度。

技术关键词

推理系统调度器内存受限多层感知机模块参数队列数据表达式阶段三元组通知在线训练集注意力序列离线本质单层

系统为您推荐了相关专利信息

一种基于扩散模型的穿墙雷达墙体杂波抑制方法

墙体杂波抑制方法穿墙雷达更新模型参数雷达仿真残差学习

模型的推理方法、装置、存储介质和计算机设备

内核节点索引参数键值

一种基于轻量级先验语义地图的在线矢量化地图构建方法

语义地图地图构建方法地图元素语义先验在线

一种基于边缘信息引导的伪监督学习交通图像质量增强方法

可见光图像伪标签生成器融合特征像素 Retinex算法

一种智能灰度发布方法、系统及计算机设备

实时数据采集装置业务系统灰度发布方法索引机制历史运行数据

基于双重预测的内存受限设备MoE大模型推理优化系统及方法

站点导航

APP 下载