一种基于层间融合的大语言模型KV cache压缩方法

正文

推荐专利

申请号：CN202510777603

申请日期：2025-06-11

公开号：CN120670165A

公开日期：2025-09-19

类型：发明专利

摘要

本发明属于大语言模型技术领域，具体涉及一种基于层间融合的大语言模型KV cache压缩方法；该方法包括：将待处理文本输入到大语言模型中，得到KV cache；计算大模型每层的压缩率并对大模型不同层的KV cache进行初步SVD压缩；对初步压缩后的KV cache进行分块，得到多个块；计算每个块的注意力得分；选取注意力得分最高的S个块并对选取的块进行SVD重建；构建缓存池存储重建后的S个块；对缓存池进行动态更新；拼接缓存池中的S个块，得到KV cache，完成KV cache压缩；本发明确保模型在文本生成、问答系统等多样化任务场景下，维持稳定的预测准确率，实现存储效率与性能表现的平衡。

技术关键词

注意力动态更新分块大语言模型问答系统索引文本代表场景序列数据

一种基于层间融合的大语言模型KV cache压缩方法

站点导航

APP 下载