摘要
基于双重预测的内存受限设备MoE大模型推理优化系统及方法,属于MoE大模型推理优化技术领域。为解决优化基于MoE的LLM在内存受限设备上的推理性能,本发明包括逐层预测器,逐token预测器,专家管理模块,所述专家管理模块包括专家缓存、临时专家缓冲区和I/O调度器。逐层预测器连接逐token预测器,逐层预测器和逐token预测器分别连接I/O调度器,逐token预测器连接专家缓存,I/O调度器分别连接临时专家缓冲区和专家缓存。本发明创新性地提出了预测式专家Cache、临时专家缓冲区以及逐token预取技术;本发明使得推理系统能够使用较少的内存资源,明显地提升LLM的推理速度。
技术关键词
推理系统
调度器
内存
受限
多层感知机
模块
参数
队列
数据
表达式
阶段
三元组
通知
在线
训练集
注意力
序列
离线
本质
单层
系统为您推荐了相关专利信息
墙体杂波抑制方法
穿墙雷达
更新模型参数
雷达仿真
残差学习
可见光图像
伪标签生成器
融合特征
像素
Retinex算法
实时数据采集装置
业务系统
灰度发布方法
索引机制
历史运行数据