一种考虑不同线性层对数值精度敏感程度的大语言模型压缩方法、系统及应用

AITNT
正文
推荐专利
一种考虑不同线性层对数值精度敏感程度的大语言模型压缩方法、系统及应用
申请号:CN202410807141
申请日期:2024-06-21
公开号:CN119961669A
公开日期:2025-05-09
类型:发明专利
摘要
本发明公开了一种考虑不同线性层对数值精度敏感程度的大语言模型压缩方法,所述压缩方法包括如下步骤:步骤一、分析大语言模型中各线性层对数值精度的敏感程度;步骤二、根据步骤一中的分析结果,对敏感程度低的线性层进行低秩分解和/或使用更低的量化位宽进行量化;步骤三、对大语言模型进行重建,获得压缩重建后的大语言模型。本发明还公开了实现上述大语言模型压缩方法的系统及应用。
技术关键词
语言模型压缩方法 大语言模型 线性 压缩系统 网络模块 数值 矩阵 硬件系统 精度 浮点数 注意力 分析模块 转换器 处理器 可读存储介质 存储器 计算机 数据
系统为您推荐了相关专利信息
1
数据检测方法及其系统、检测装置、计算机设备及存储介质
序列 信号 行星式 反射率 数据检测方法
2
一种基于网格化与全单模矩阵加速的三维装箱求解方法
网格 矩阵 三维装箱技术 混合整数规划模型 变量
3
客服回复方法及其装置、设备、介质
文本 标签 回复方法 元素 客服知识库
4
无蜂窝大规模MIMO中基于模型驱动深度学习的高能效免授权随机接入方法
模型驱动深度学习 接收机 噪声方差 非线性 能效
5
一种图像处理方法、系统、介质及电子设备
图像处理方法 大语言模型 行人重识别网络 轨迹 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号