摘要
本发明提供了一种多专家模型推理方法、装置、设备以及存储介质,旨在多专家模型推理的过程中,减少多级内存间专家模型交换的次数,以提升多专家模型的推理效率。该系统在离线阶段,测量各专家模型的性能,并得到最优的内存分配方案,以合理的分配内存来存储专家模型的参数和推理中间量。在在线阶段,推理请求调度模块调度推理请求到合适的推理执行器队列等待推理。批处理划分模块根据专家性能和可用内存将请求进行批量处理。专家管理模块在需要进行专家交换的时候,卸载未来使用概率最小的专家,加载所需的专家。本发明降低了多专家模型推理过程中专家交换的次数,提升了推理的效率。
技术关键词
推理系统
执行器
推理方法
生成配置信息
模块
内存占用量
队列
卸载方法
离线
感知系统
两阶段
参数
数据
异构
批量
在线
处理器
系统为您推荐了相关专利信息
神经动态模型
双臂机器人
学习方法
机器人基坐标系
刚度
低频输电系统
支撑控制方法
虚拟同步机
电流控制模块
励磁模块
语言学习内容
智能语言学习方法
模态特征
梅尔频率倒谱系数
短时傅里叶变换