基于大语言模型的推理加速方法、装置、介质及设备

正文

推荐专利

申请号：CN202510872700

申请日期：2025-06-26

公开号：CN120764681A

公开日期：2025-10-10

类型：发明专利

摘要

公开了一种基于大语言模型的推理加速方法、装置、介质及设备，该方法包括：确定部署在多个第一硬件加速器上的大语言模型、分别部署在多个第二硬件加速器上的由所述大语言模型切分得到的多个子模型，以及待执行任务的输入数据；通过多个所述大语言模型对所述输入数据进行第一处理，得到第一处理结果；通过多个所述子模型对所述第一处理结果进行第二处理，得到第二处理结果；响应于所述第二处理结果满足停止推理条件，确定所述待执行任务的执行结果。该方案通过数据并行和模型并行进行分阶段的混合加速，能够提高大语言模型的推理效率，达到缩短耗时、提高任务执行效率的效果。

技术关键词

硬件加速器大语言模型序列键值解码数据加速装置电子设备处理器分阶段可读存储介质指令模块存储器标识符策略计算机编码矩阵

基于大语言模型的推理加速方法、装置、介质及设备

站点导航

APP 下载