摘要
本申请提供MoE稀疏大模型的分阶段混合并行推理方法及系统,涉及特定计算模型系统技术领域,方法包括:在预填充阶段控制MoE稀疏大模型逐层执行:在获取提示数据序列的各字符的专家号的同时,向各设备添加基于张量并行策略运行的第一混合专家层模型参数;再基于各设备中的基于专家并行策略运行的第二混合专家层模型参数进行专家并行计算;将字符恢复至设备初始位置并释放第二混合专家层模型参数;将模型最后层输出的预测字符发送至首个层以用于根据预测字符和各设备中的第一混合专家层模型参数执行解码阶段的推理。本申请能够解决现有MoE稀疏大模型推理技术采用的并行策略对预填充阶段以及解码阶段的适配性较差且通信开销较大的问题。
技术关键词
并行推理方法
字符
并行策略
分阶段
注意力
参数
序列
数据
调度装置
贪心算法
推理技术
处理器
推理系统
解码
计算机程序产品
存储器
内存
系统为您推荐了相关专利信息
交叉注意力机制
摘要生成系统
层次注意力机制
实体
预训练语言模型
血管
智能模型
图像分割方法
光学相干断层扫描
局部特征提取
睡眠特征
可穿戴设备
时序特征
睡眠阶段分类
序列