摘要
本发明公开了一种混合专家模型的压缩及推理方法、电子设备、介质,通过分层预测优化动态专家混合模型的推理效率。核心设计将预测层(含剪枝稀疏后的专家模型)部署于GPU,完整专家模型存于CPU内存。推理过程包括:利用第i‑1层隐状态预测第i层的专家激活分布。将预测激活的专家模型通过PCIe总线从CPU加载至GPU。执行第i层时,若路由网络输出的实际激活专家与预测不符,则动态重载缺失专家至GPU。复用第i层投影矩阵作为专家内稀疏预测模型,基于第i‑1层隐状态预测激活通道索引。该方法通过预加载降低延迟,结合专家级与通道级稀疏化提升计算效率,利用隐状态相似性分析实现分层精准预测,通过动态补救机制保障准确性。
技术关键词
推理方法
矩阵
电子设备
处理器
索引
多层感知机
计算机程序产品
通道
存储器
动态
数据
内存
可读存储介质
网络
分层
元素
指令
系统为您推荐了相关专利信息
车载摄像装置
信号处理器
光发射组件
接收端电路
通信系统
联网收费数据
纠正方法
机器学习模型
异常数据
字段
双目相机
手术导航定位系统
示踪器
坐标系
机械臂