一种基于层间融合的大语言模型KV cache压缩方法

AITNT
正文
推荐专利
一种基于层间融合的大语言模型KV cache压缩方法
申请号:CN202510777603
申请日期:2025-06-11
公开号:CN120670165A
公开日期:2025-09-19
类型:发明专利
摘要
本发明属于大语言模型技术领域,具体涉及一种基于层间融合的大语言模型KV cache压缩方法;该方法包括:将待处理文本输入到大语言模型中,得到KV cache;计算大模型每层的压缩率并对大模型不同层的KV cache进行初步SVD压缩;对初步压缩后的KV cache进行分块,得到多个块;计算每个块的注意力得分;选取注意力得分最高的S个块并对选取的块进行SVD重建;构建缓存池存储重建后的S个块;对缓存池进行动态更新;拼接缓存池中的S个块,得到KV cache,完成KV cache压缩;本发明确保模型在文本生成、问答系统等多样化任务场景下,维持稳定的预测准确率,实现存储效率与性能表现的平衡。
技术关键词
注意力 动态更新 分块 大语言模型 问答系统 索引 文本 代表 场景 序列 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号