摘要
本发明公开了一种混合专家模型的异步并行推理方法、系统、设备及介质,它们是相对应的方案,方案中:将专家并行中因全对全集合通信造成的GPU间计算和通信的同步进行解耦,允许模型计算与词元数据通信异步并行,以充分地对专家并行造成的数据通信开销进行掩盖,并消除同步等待开销;针对推理中专家冷热不均的现象,优先将热专家放置在GPU,将冷专家侧载在CPU,以释放出GPU显存空间,推理时可通过增大批尺寸提升GPU计算效率;通过动态选择最适合执行的计算单元与需要加载的冷专家,实现高效资源调度;总体而言,通过本发明可显著降低专家并行推理时通信开销和等待开销,同时提升GPU的计算效率,优化推理过程中的整体吞吐表现。
技术关键词
推理系统
并行推理方法
注意力
数据通信
点对点
内存
通信线
指令
图形处理器
阶段
多线程
执行矩阵乘法
中央处理器
进程
发送方
尺寸
接收方
设备架构
字典
系统为您推荐了相关专利信息
语义分割模型
脊髓损伤患者
注意力神经网络
影像
特征工程
样本
图像编码器
识别模型训练方法
参数
融合图像特征
超声波测距传感器
工况
5G通信模块
图像采集模块
超声波测距器
铁路道岔设备
铁路道岔故障
故障诊断方法
卷积长短期记忆
数据
交通
风险预测方法
轨迹预测模型
网格
风险预测装置