摘要
本发明公开了一种有限资源下大规模MoE模型本地推理加速系统及方法,进行大语言模型推理设备上的MoE模型性能建模,得到模块传算性能模型;执行滑动窗口式贪婪预测‑调度策略:利用MoE模型中的门控网络进行专家模块路由预测,得到各层的激活专家及各专家的输入token,并利用所述模块传算性能模型结合最小滑动窗口算法动态地决定单次调度窗口中所包含的MoE模型层数;根据预测的所述专家模块路由,对单次调度窗口长度的窗口内的激活专家模块进行最优执行策略搜索和进行所述MoE模型层调度。本发明通过无训练成本的专家激活预测机制,实现高效、稳定的本地大模型推理部署。
技术关键词
滑动窗口算法
大语言模型
模块
策略
加速系统
动态地
线性关系模型
离线
系统锁定
资源
搜索算法
网络
计划
机制
压力
系统为您推荐了相关专利信息
状态评估方法
基线
深度神经网络模型
唤醒策略
状态评估系统
信息智能管理系统
订单
数据处理模块
路径优化算法
资源调度策略
液晶透镜模块
液晶透镜阵列
图像生成装置
液晶光阀
液晶面板