摘要
本发明公开一种混合专家模型推理方法,属于深度学习(machine learning)领域。本发明通过自适应和基于敏感度的专家门控机制,动态调整不同输入和每一层所需激活的专家数量,具有基于敏感度分析的自适应专家选取、自适应专家预取与自适应专家缓存三个核心机制,可以优化混合专家模型推理性能。本发明在保持精度不下降的前提下,平均减少了25%的专家激活数量,显著提高了MoE推理的效率,特别适用于边缘设备等内存受限的环境,具有重要的应用价值和广泛的应用前景。
技术关键词
推理方法
队列
动态规划算法
正确率
模块
校准
机制
矩阵
内存
受限
在线
数据
核心
元素
序列
定义
精度
系统为您推荐了相关专利信息
唤醒词检测
多语种语音
编码器
语音唤醒方法
编码特征
数据访问方法
数据访问装置
令牌
检索加密数据
授予访问权限
晶圆
成像方法
多角度
虚拟现实平台
生成三维模型
芯片测试数据
分层可视化
展示页面
数据处理终端
指标