摘要
本发明提供了一种适用于混合专家架构大语言模型的专家访问预测方法和系统,综合考虑模型结构和硬件特征信息,通过为每一层构建基于神经网络的专家访问预测器,并利用历史数据进行训练,能够提前预测模型推理过程中需要激活的专家。这一过程中,预测器在CPU上并行执行预测,而预取器根据预测结果提前将专家参数从主机内存加载到GPU显存中。通过调整预测距离在预测准确率和预取提前量之间进行权衡,并能根据预测准确率动态调整预取数量。同时,采用并行加载,最大化地利用系统资源,减少对GPU推理性能的影响。最后,通过高优先级重新预取等机制来处理预测错误的情况,确保模型推理的正常进行。
技术关键词
大语言模型
预测系统
内存
队列
参数
模块
离线
数据
主机
磁盘
动态
链路
在线
平台
机制
系统为您推荐了相关专利信息
SVM算法
抽水蓄能电站
缺陷检测方法
缺陷智能
波形
深度学习模型构建方法
信息数据处理终端
训练样本集
多模态深度学习
表面图案
分析方法
中医诊断信息
风险评估模型
现代医学
风险评估技术
时间段
决策系统
联合损失函数
元素
数据获取模块