面向大语言模型的高效INT6量化方法、装置及设备

AITNT
正文
推荐专利
面向大语言模型的高效INT6量化方法、装置及设备
申请号:CN202511034825
申请日期:2025-07-25
公开号:CN121031681A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种面向大语言模型的高效INT6量化方法、装置及设备,包括:对大语言模型进行混合精度量化,得到量化后的大语言模型;将量化后的大语言模型中的权重和激活值进行比特级数据打包,得到比特级数据;将比特级数据加载至GPU的寄存器,并利用BTC进行矩阵乘积累加运算和加权求和,得到输出数据;将输出数据存储回GPU的全局内存,以完成大语言模型量化推理过程。本发明对大语言模型利用不同的精度进行混合精度量化,在具有较好量化精度的同时通过GPU的调度策略提高了推理速度,对GPU的推理潜力进行充分挖掘,从而释放6位量化的全部潜力。
技术关键词
大语言模型 矩阵乘积累加运算 数据存储 内存 精度 打包模块 处理器 布局 电子设备 指令 存储器 策略 速度
系统为您推荐了相关专利信息
1
一种基于YOLOLW-Net的PCB表面微小缺陷高精度检测方法
高精度检测方法 表面微小缺陷 多尺度池化 高频特征 前馈神经网络
2
一种基于局部语义全局社区化的知识图谱搜索方法及系统
实体 语义知识图谱 三元组 搜索方法 节点
3
科研人员文献信息检索和评价方法、装置及存储介质
大语言模型 信息检索 网页元素 评价方法 非易失性计算机可读存储介质
4
基于昇腾芯片的大模型推理算子优化方法、装置及设备
分块策略 芯片 内存 数据存储 并行计算单元
5
一种部署在终端设备系统中的深度学习模型运行方法
深度学习模型 终端设备系统 并行优化方法 流水线 并行方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号