基于双重预测的内存受限设备MoE大模型推理优化系统及方法

AITNT
正文
推荐专利
基于双重预测的内存受限设备MoE大模型推理优化系统及方法
申请号:CN202510699220
申请日期:2025-05-28
公开号:CN120610905A
公开日期:2025-09-09
类型:发明专利
摘要
基于双重预测的内存受限设备MoE大模型推理优化系统及方法,属于MoE大模型推理优化技术领域。为解决优化基于MoE的LLM在内存受限设备上的推理性能,本发明包括逐层预测器,逐token预测器,专家管理模块,所述专家管理模块包括专家缓存、临时专家缓冲区和I/O调度器。逐层预测器连接逐token预测器,逐层预测器和逐token预测器分别连接I/O调度器,逐token预测器连接专家缓存,I/O调度器分别连接临时专家缓冲区和专家缓存。本发明创新性地提出了预测式专家Cache、临时专家缓冲区以及逐token预取技术;本发明使得推理系统能够使用较少的内存资源,明显地提升LLM的推理速度。
技术关键词
推理系统 调度器 内存 受限 多层感知机 模块 参数 队列 数据 表达式 阶段 三元组 通知 在线 训练集 注意力 序列 离线 本质 单层
系统为您推荐了相关专利信息
1
一种基于扩散模型的穿墙雷达墙体杂波抑制方法
墙体杂波抑制方法 穿墙雷达 更新模型参数 雷达仿真 残差学习
2
模型的推理方法、装置、存储介质和计算机设备
内核 节点 索引 参数 键值
3
一种基于轻量级先验语义地图的在线矢量化地图构建方法
语义地图 地图构建方法 地图元素 语义先验 在线
4
一种基于边缘信息引导的伪监督学习交通图像质量增强方法
可见光图像 伪标签生成器 融合特征 像素 Retinex算法
5
一种智能灰度发布方法、系统及计算机设备
实时数据采集装置 业务系统 灰度发布方法 索引机制 历史运行数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号