摘要
本发明属于大语言模型技术领域,具体涉及一种基于层间融合的大语言模型KV cache压缩方法;该方法包括:将待处理文本输入到大语言模型中,得到KV cache;计算大模型每层的压缩率并对大模型不同层的KV cache进行初步SVD压缩;对初步压缩后的KV cache进行分块,得到多个块;计算每个块的注意力得分;选取注意力得分最高的S个块并对选取的块进行SVD重建;构建缓存池存储重建后的S个块;对缓存池进行动态更新;拼接缓存池中的S个块,得到KV cache,完成KV cache压缩;本发明确保模型在文本生成、问答系统等多样化任务场景下,维持稳定的预测准确率,实现存储效率与性能表现的平衡。
技术关键词
注意力
动态更新
分块
大语言模型
问答系统
索引
文本
代表
场景
序列
数据