基于动态显存压缩与内存异构的大语言模型推理加速方法及系统

AITNT
正文
推荐专利
基于动态显存压缩与内存异构的大语言模型推理加速方法及系统
申请号:CN202510494275
申请日期:2025-04-20
公开号:CN120371524A
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开了一种基于动态显存压缩与内存异构的大语言模型推理优化方法及系统,通过整合KV Cache的动态压缩策略与内存并行架构,实现显存资源的智能管理。该方法包含:1)实时分析KV Cache的时空特征,自适应选择量化压缩、稀疏化或低秩分解算法,基于注意力头重要性评分进行分层存储,核心头部保留高精度,次要头部实施低比特量化;2)将压缩后的非活跃数据划分为多个数据块存储于系统内存,根据物理通道数量建立并行数据通道组,在加载时通过多通道并发读取压缩块并利用GPU张量核心加速稀疏矩阵并行解压;3)构建KV Cache复用机制与并行通道,采用硬件加速压缩与异步流水线机制,使压缩/解压过程与模型计算并行化。
技术关键词
内存 NUMA架构 上下文标识符 神经网络推理 并行解码器 低比特量化 动态更新 编码 数值 策略 流水线 注意力 服务器节点 精度 算术解码 矩阵 数据 多轮对话 异构
系统为您推荐了相关专利信息
1
流域复杂水库群防洪优化调度高效求解方法
子系统 河道洪水演算 水库蓄水量 分布式计算框架 变量
2
推理方法、装置、设备、集群、产品以及介质
推理方法 网关 参数 集群 矩阵
3
一种多模型动态影像分析系统
动态影像分析系统 缓存管理系统 模块 NUMA架构 多模型协同
4
一种大尺寸复杂模型的3D打印切片方法
扫描线阵列 补偿算法 面片 切片方法 求交算法
5
加减速可控的机器人轨迹规划方法、装置、设备和存储器
坐标 速度 机器人轨迹规划 计算机可读存储器 插值模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号