一种混合专家模型的压缩及推理方法、电子设备、介质

正文

推荐专利

申请号：CN202510765691

申请日期：2025-06-09

公开号：CN120806117A

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种混合专家模型的压缩及推理方法、电子设备、介质，通过分层预测优化动态专家混合模型的推理效率。核心设计将预测层(含剪枝稀疏后的专家模型)部署于GPU，完整专家模型存于CPU内存。推理过程包括：利用第i‑1层隐状态预测第i层的专家激活分布。将预测激活的专家模型通过PCIe总线从CPU加载至GPU。执行第i层时，若路由网络输出的实际激活专家与预测不符，则动态重载缺失专家至GPU。复用第i层投影矩阵作为专家内稀疏预测模型，基于第i‑1层隐状态预测激活通道索引。该方法通过预加载降低延迟，结合专家级与通道级稀疏化提升计算效率，利用隐状态相似性分析实现分层精准预测，通过动态补救机制保障准确性。

技术关键词

推理方法矩阵电子设备处理器索引多层感知机计算机程序产品通道存储器动态数据内存可读存储介质网络分层元素指令

系统为您推荐了相关专利信息

一种基于图像处理与对抗网络的射线图像数据增强方法

卷积模块生成器网络图像处理射线矩阵

一种车载摄像装置通信系统

车载摄像装置信号处理器光发射组件接收端电路通信系统

基于动态优化的问答大语言模型集群协同问答方法、系统、设备及介质

大语言模型问答方法指令集群动态

基于机器学习模型的联网收费数据异常检测与纠正方法

联网收费数据纠正方法机器学习模型异常数据字段

一种手术导航定位系统、方法、电子设备及存储介质

双目相机手术导航定位系统示踪器坐标系机械臂

一种混合专家模型的压缩及推理方法、电子设备、介质

站点导航

APP 下载