摘要
本发明提供一种面向大语言模型端侧部署的后量化方法及系统,该方法包括:确定大语言模型的任一待量化的当前矩阵的输入通道对应的通道取值范围;根据通道取值范围,基于预设通道平滑算法进行通道平滑,并计算平滑后通道的量化参数;根据平滑后通道的量化参数进行通道量化,得到量化后的矩阵;量化后的矩阵用于在端侧设备进行部署,实现低成本、高效运行大语言模型。本发明能够实现大语言模型的高效压缩且适用于部署在端侧设备上,节省计算和通信开销,显著提高了量化过程的整体精度。
技术关键词
大语言模型
通道
平滑算法
量化系统
矩阵
非暂态计算机可读存储介质
参数
多项式
处理器
非线性
数据分布
聚类算法
因子
模块
指数
存储器
低成本
电子设备
精度
系统为您推荐了相关专利信息
GP模型
融合注意力机制
上采样
感知损失函数
图像生成方法
测试分析设备
控制模块
电源转换模块
输入输出设备
人机交互模块
大语言模型
模板
日志解析方法
标记
日志解析装置