摘要
本发明属于大语言模型量化技术领域,具体涉及一种基于正交特征的大语言模型量化方法及加速器架构,量化方法将大语言模型的激活张量分割为多个列块,并以列块为粒度为整个激活张量分配FP4量化格式。本发明列块的概念定义为:将激活张量的矩阵分割为多个元素数量相同的段,其中段中各元素连续排列在矩阵的第一维度的同一行中,且排列在第二维度的连续的多个列中;列块包括第二维度的多个列,每个列块中列的数量与段中元素的数量一致。本发明克服了现有大语言模型分组量化技术中存在的缺陷,解决了大语言模型精度与硬件效率之间的矛盾。
技术关键词
格式
地址生成器
加速器
索引
大语言模型
数据
缩放单元
指数
执行矩阵乘法
元素
阵列
乘法器
核心
符号
处理单元
因子
模块
分割方法
周期
系统为您推荐了相关专利信息
智能推理
生成方法
知识管理软件
工艺管理系统
图谱
智能对话方法
专业
情感分析模型
非暂态计算机可读存储介质
智能对话装置
文本处理方法
格式
模式
文本处理装置
可读存储介质