摘要
本申请提供一种大语言模型推理方法、装置、电子设备、存储介质及程序产品。该方法包括:针对至少一个transformer模块中的每个注意力头,根据当前token计算注意力头对应的重要性指标;根据重要性指标从多个注意力头中筛选目标注意力头;基于目标注意力头对当前token进行推理,获得transformer模块的中间推理结果;基于中间推理结果进行后续推理,获得大模型输出的最终推理结果。本申请在利用大语言模型中的注意力机制模块对当前token进行推理之前,计算每个注意力头对于当前token的重要性指标,基于重要性指标筛选用于后续推理的目标注意力头,实现对不重要的注意力头的剪枝,降低了在注意力机制模块推理过程中的计算量,从而提高了推理效率。
技术关键词
前馈神经网络
大语言模型
模块
推理方法
指标
计算机程序指令
偏差
绝对值算法
多头注意力机制
电子设备
推理装置
处理器
近似算法
级联
计算机程序产品
存储器
系统为您推荐了相关专利信息
顶点
网格模型
几何体模型
生成网络模型
可读存储介质
缺陷识别方法
换流阀
融合神经网络
元器件
滑动窗口技术
激光测距模块
PLC控制器
电解槽
一致性检测
直线导轨