摘要
本发明公开了一种用于优化大模型键值缓存的混合精度并行压缩方法,其将混合精度键值缓存压缩的优势与先进的系统优化技术相结合,基于混合精度压缩中需要高精度保留的键值对与预取策略中用于注意力计算的键值对相同的特性,将低精度的KV缓存存储在GPU内存中,同时根据需要从CPU内存中动态预取预测的高精度重要KV缓存。本发明能够解决现有基于多头注意力机制的方法对现有预训练模型不兼容,无法直接应用于闭源或微调后大模型,降低了方法的泛化性的技术问题,以及现有基于剪枝的方法容易出现删除当前阶段不重要标记的情况,导致上下文信息丢失的技术问题。
技术关键词
并行压缩方法
残差矩阵
索引
模块
内存
键值
元素
精度
多头注意力机制
数据
符号
预训练模型
阶段
压缩系统
因子
解码
策略