有限资源下大规模MoE模型本地推理加速方法及系统

正文

推荐专利

申请号：CN202510871536

申请日期：2025-06-26

公开号：CN120806131A

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种有限资源下大规模MoE模型本地推理加速系统及方法，进行大语言模型推理设备上的MoE模型性能建模，得到模块传算性能模型；执行滑动窗口式贪婪预测‑调度策略：利用MoE模型中的门控网络进行专家模块路由预测，得到各层的激活专家及各专家的输入token，并利用所述模块传算性能模型结合最小滑动窗口算法动态地决定单次调度窗口中所包含的MoE模型层数；根据预测的所述专家模块路由，对单次调度窗口长度的窗口内的激活专家模块进行最优执行策略搜索和进行所述MoE模型层调度。本发明通过无训练成本的专家激活预测机制，实现高效、稳定的本地大模型推理部署。

技术关键词

滑动窗口算法大语言模型模块策略加速系统动态地线性关系模型离线系统锁定资源搜索算法网络计划机制压力

系统为您推荐了相关专利信息

一种基于多模态融合的术后脑功能状态评估方法及系统

状态评估方法基线深度神经网络模型唤醒策略状态评估系统

一种基于大数据的餐饮配送信息智能管理系统

信息智能管理系统订单数据处理模块路径优化算法资源调度策略

一种兼容平面2D显示、裸眼视差3D与光场显示的图像生成装置和方法

液晶透镜模块液晶透镜阵列图像生成装置液晶光阀液晶面板

一种融合动态权重和特征增强的玉米植株点云器官分割方法

器官分割方法采样点点云特征动态玉米

接口聚合请求方法、装置、设备、存储介质及程序产品

接口客户端服务端标识时延

有限资源下大规模MoE模型本地推理加速方法及系统

站点导航

APP 下载