摘要
公开了一种基于大语言模型的推理加速方法、装置、介质及设备,该方法包括:确定部署在多个第一硬件加速器上的大语言模型、分别部署在多个第二硬件加速器上的由所述大语言模型切分得到的多个子模型,以及待执行任务的输入数据;通过多个所述大语言模型对所述输入数据进行第一处理,得到第一处理结果;通过多个所述子模型对所述第一处理结果进行第二处理,得到第二处理结果;响应于所述第二处理结果满足停止推理条件,确定所述待执行任务的执行结果。该方案通过数据并行和模型并行进行分阶段的混合加速,能够提高大语言模型的推理效率,达到缩短耗时、提高任务执行效率的效果。
技术关键词
硬件加速器
大语言模型
序列
键值
解码
数据
加速装置
电子设备
处理器
分阶段
可读存储介质
指令
模块
存储器
标识符
策略
计算机
编码
矩阵