摘要
本申请实施例提供了一种针对大语言模型的结构化剪枝方法以及相关设备,属于神经网络轻量化技术领域。该方法包括:获取待剪枝的初始大语言模型多个注意力模块的第一权重矩阵、以及多个感知模块的第二权重矩阵;基于由第一权重矩阵相应的第一波动度量矩阵、以及由第二权重矩阵相应的第二波动度量矩阵确定全局剪枝阈值;基于全局剪枝阈值确定各注意力模块相应的键值掩码矩阵和查询掩码矩阵、以及各感知模块相应的感知掩码矩阵;利用键值掩码矩阵和查询掩码矩阵对相应的第一权重矩阵进行剪枝处理,并利用感知掩码矩阵对相应的第二权重矩阵进行剪枝处理,进而确定初始大语言模型剪枝后的大语言模型。本申请能够提高大语言模型的模型压缩准确度。
技术关键词
掩码矩阵
大语言模型
剪枝方法
注意力
度量
键值
模块
样本
元素
轻量化技术
剪枝装置
可读存储介质
模型压缩
电子设备
处理器
存储器
计算机
参数
系统为您推荐了相关专利信息
动作时序特征
路结构
长短期记忆网络
风险预警方法
注意力
甲状腺肿瘤分类
风险预测方法
风险预测模型
血流特征
融合特征
大语言模型
智能查询方法
语义向量
答案
自然语言
半导体激光器芯片
损伤检测方法
特征提取模块
融合特征
多尺度特征提取