一种考虑不同线性层对数值精度敏感程度的大语言模型压缩方法、系统及应用

正文

推荐专利

申请号：CN202410807141

申请日期：2024-06-21

公开号：CN119961669A

公开日期：2025-05-09

类型：发明专利

摘要

本发明公开了一种考虑不同线性层对数值精度敏感程度的大语言模型压缩方法，所述压缩方法包括如下步骤：步骤一、分析大语言模型中各线性层对数值精度的敏感程度；步骤二、根据步骤一中的分析结果，对敏感程度低的线性层进行低秩分解和/或使用更低的量化位宽进行量化；步骤三、对大语言模型进行重建，获得压缩重建后的大语言模型。本发明还公开了实现上述大语言模型压缩方法的系统及应用。

技术关键词

语言模型压缩方法大语言模型线性压缩系统网络模块数值矩阵硬件系统精度浮点数注意力分析模块转换器处理器可读存储介质存储器计算机数据

系统为您推荐了相关专利信息

数据检测方法及其系统、检测装置、计算机设备及存储介质

序列信号行星式反射率数据检测方法

一种基于网格化与全单模矩阵加速的三维装箱求解方法

网格矩阵三维装箱技术混合整数规划模型变量

客服回复方法及其装置、设备、介质

文本标签回复方法元素客服知识库

无蜂窝大规模MIMO中基于模型驱动深度学习的高能效免授权随机接入方法

模型驱动深度学习接收机噪声方差非线性能效

一种图像处理方法、系统、介质及电子设备

图像处理方法大语言模型行人重识别网络轨迹多模态

一种考虑不同线性层对数值精度敏感程度的大语言模型压缩方法、系统及应用

站点导航

APP 下载