一种用于优化大模型键值缓存的混合精度并行压缩方法和系统

正文

推荐专利

申请号：CN202510991717

申请日期：2025-07-18

公开号：CN120952069A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种用于优化大模型键值缓存的混合精度并行压缩方法，其将混合精度键值缓存压缩的优势与先进的系统优化技术相结合，基于混合精度压缩中需要高精度保留的键值对与预取策略中用于注意力计算的键值对相同的特性，将低精度的KV缓存存储在GPU内存中，同时根据需要从CPU内存中动态预取预测的高精度重要KV缓存。本发明能够解决现有基于多头注意力机制的方法对现有预训练模型不兼容，无法直接应用于闭源或微调后大模型，降低了方法的泛化性的技术问题，以及现有基于剪枝的方法容易出现删除当前阶段不重要标记的情况，导致上下文信息丢失的技术问题。

技术关键词

并行压缩方法残差矩阵索引模块内存键值元素精度多头注意力机制数据符号预训练模型阶段压缩系统因子解码策略

一种用于优化大模型键值缓存的混合精度并行压缩方法和系统

站点导航

APP 下载