摘要
本申请公开了一种大模型推理方法、装置、设备及程序产品,涉及人工智能技术领域,本申请在部署时选择稀疏性大模型作为待部署的大模型,进一步将其拆分为若干个子模型,并存储到终端的内存中。在执行大模型推理任务时,可以根据当前推理任务所需的目标子模型,从内存中仅加载目标子模型至推理芯片执行推理任务,无需加载全部的稀疏性大模型,极大降低了所需加载模型参数的数量,使得访存量降低,推理耗时也降低,有效缓解了内存墙问题。
技术关键词
推理方法
内存
排布方式
前馈神经网络
芯片
终端
推理装置
人工智能技术
计算机程序产品
处理器
加载单元
关系
数据
可读存储介质
存储器
电子设备
指令
参数