摘要
本申请公开了一种模型压缩方法、装置及电子设备。其中,该方法包括:获取初始模型,其中,初始模型中包括多个Transformer模块,且初始模型为权重以浮点形式存在的大语言模型;采用伪量化节点对初始模型的浮点型权重进行量化操作,得到第一模型,其中,伪量化节点用于模拟初始模型的量化效果;确定第一模型Transformer模块中的多头注意力模块,并丢弃多头注意力模块中低于预设阈值的注意力头,得到压缩模型。本申请解决了由于相关技术在对大语言模型进行压缩处理时,无法合理地确定压缩方法及压缩参数的技术问题。
技术关键词
模型压缩方法
注意力
非易失性存储介质
矩阵
模块
节点
浮点数
存储程序指令
电子设备
计算机程序产品
存储器
处理器
数据
因子
非线性
序列
参数
系统为您推荐了相关专利信息
工业润滑脂
管理方法
过滤机
研磨机
在线检测模型
卷积神经网络加速器
微系统
时钟
读取控制电路
读写控制电路
番茄黄化曲叶病
高光谱成像技术
无损检测方法
感兴趣区域提取
梯度提升机