摘要
本申请涉及数据处理技术,特别涉及大语言模型的加速推理方法、实施该方法的计算设备、非瞬时计算机可读存储介质和计算机程序产品。按照本申请的一个方面,提供一种大语言模型的加速推理方法,其中,所述大语言模型包含多个以级联方式连接的子层,所述子层为多头注意力层或前馈神经网络层,所述方法包括:A、利用动态稀疏优化器,为每个子层确定相应的稀疏度;B、利用稀疏化的子层来处理推理请求,其中,稀疏化的方式为:对于每个子层,利用与该子层相关联的动态稀疏预测器,基于该子层的稀疏度和与输入该子层的前一子层的上下文来确定需要激活的注意力头或神经元并且激活所确定的注意力头或神经元。
技术关键词
大语言模型
推理方法
注意力
级联方式
优化器
神经网络模型
计算机程序产品
动态规划算法
分治算法
可读存储介质
数据处理技术
指令
贪心算法
处理器通信
校准
存储器
系统为您推荐了相关专利信息
数据分类分级
大语言模型
信息化平台
模式
数据编码方式
非结构化文本
实体关系抽取方法
大语言模型
标记
三元组
开关电源
谐振变换器
智能管理方法
模糊控制算法
ARIMA模型
设备状态数据
加权特征
设备状态评估
LSTM模型
多模态深度学习
交叉注意力机制
气象预报数据
光伏电站
历史气象数据
数值天气预报数据