摘要
本发明公开了一种面向大语言模型的高效INT6量化方法、装置及设备,包括:对大语言模型进行混合精度量化,得到量化后的大语言模型;将量化后的大语言模型中的权重和激活值进行比特级数据打包,得到比特级数据;将比特级数据加载至GPU的寄存器,并利用BTC进行矩阵乘积累加运算和加权求和,得到输出数据;将输出数据存储回GPU的全局内存,以完成大语言模型量化推理过程。本发明对大语言模型利用不同的精度进行混合精度量化,在具有较好量化精度的同时通过GPU的调度策略提高了推理速度,对GPU的推理潜力进行充分挖掘,从而释放6位量化的全部潜力。
技术关键词
大语言模型
矩阵乘积累加运算
数据存储
内存
精度
打包模块
处理器
布局
电子设备
指令
存储器
策略
速度
系统为您推荐了相关专利信息
高精度检测方法
表面微小缺陷
多尺度池化
高频特征
前馈神经网络
大语言模型
信息检索
网页元素
评价方法
非易失性计算机可读存储介质
深度学习模型
终端设备系统
并行优化方法
流水线
并行方法