基于动态显存压缩与内存异构的大语言模型推理加速方法及系统

正文

推荐专利

申请号：CN202510494275

申请日期：2025-04-20

公开号：CN120371524A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开了一种基于动态显存压缩与内存异构的大语言模型推理优化方法及系统，通过整合KV Cache的动态压缩策略与内存并行架构，实现显存资源的智能管理。该方法包含：1）实时分析KV Cache的时空特征，自适应选择量化压缩、稀疏化或低秩分解算法，基于注意力头重要性评分进行分层存储，核心头部保留高精度，次要头部实施低比特量化；2）将压缩后的非活跃数据划分为多个数据块存储于系统内存，根据物理通道数量建立并行数据通道组，在加载时通过多通道并发读取压缩块并利用GPU张量核心加速稀疏矩阵并行解压；3）构建KV Cache复用机制与并行通道，采用硬件加速压缩与异步流水线机制，使压缩/解压过程与模型计算并行化。

技术关键词

内存 NUMA架构上下文标识符神经网络推理并行解码器低比特量化动态更新编码数值策略流水线注意力服务器节点精度算术解码矩阵数据多轮对话异构

系统为您推荐了相关专利信息

流域复杂水库群防洪优化调度高效求解方法

子系统河道洪水演算水库蓄水量分布式计算框架变量

推理方法、装置、设备、集群、产品以及介质

推理方法网关参数集群矩阵

一种多模型动态影像分析系统

动态影像分析系统缓存管理系统模块 NUMA架构多模型协同

一种大尺寸复杂模型的3D打印切片方法

扫描线阵列补偿算法面片切片方法求交算法

加减速可控的机器人轨迹规划方法、装置、设备和存储器

坐标速度机器人轨迹规划计算机可读存储器插值模块

基于动态显存压缩与内存异构的大语言模型推理加速方法及系统

站点导航

APP 下载