面向大语言模型的高效INT6量化方法、装置及设备

正文

推荐专利

申请号：CN202511034825

申请日期：2025-07-25

公开号：CN121031681A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种面向大语言模型的高效INT6量化方法、装置及设备，包括：对大语言模型进行混合精度量化，得到量化后的大语言模型；将量化后的大语言模型中的权重和激活值进行比特级数据打包，得到比特级数据；将比特级数据加载至GPU的寄存器，并利用BTC进行矩阵乘积累加运算和加权求和，得到输出数据；将输出数据存储回GPU的全局内存，以完成大语言模型量化推理过程。本发明对大语言模型利用不同的精度进行混合精度量化，在具有较好量化精度的同时通过GPU的调度策略提高了推理速度，对GPU的推理潜力进行充分挖掘，从而释放6位量化的全部潜力。

技术关键词

大语言模型矩阵乘积累加运算数据存储内存精度打包模块处理器布局电子设备指令存储器策略速度

系统为您推荐了相关专利信息

一种基于YOLOLW-Net的PCB表面微小缺陷高精度检测方法

高精度检测方法表面微小缺陷多尺度池化高频特征前馈神经网络

一种基于局部语义全局社区化的知识图谱搜索方法及系统

实体语义知识图谱三元组搜索方法节点

科研人员文献信息检索和评价方法、装置及存储介质

大语言模型信息检索网页元素评价方法非易失性计算机可读存储介质

基于昇腾芯片的大模型推理算子优化方法、装置及设备

分块策略芯片内存数据存储并行计算单元

一种部署在终端设备系统中的深度学习模型运行方法

深度学习模型终端设备系统并行优化方法流水线并行方法

面向大语言模型的高效INT6量化方法、装置及设备

站点导航

APP 下载