摘要
本发明提供一种键值缓存剪枝方法及系统,首先获取大语言模型的查询向量、待剪枝的键缓存向量集合和待剪枝的值缓存向量集合;根据查询向量和待剪枝的键缓存向量集合,计算键缓存向量重要性评估值;根据待剪枝的值缓存向量集合,计算值缓存向量重要性评估值;根据键缓存向量重要性评估值和值缓存向量重要性评估值,确定键值缓存重要性度量结果;基于键值缓存重要性度量结果对待剪枝的键缓存向量集合和待剪枝的值缓存向量集合进行键值缓存剪枝,以保留具有大激活值的键缓存向量和具有大激活值的值缓存向量。本发明的方法不仅减少了键值缓存的存储需求,而且保持了优越的模型性能。
技术关键词
剪枝方法
键值
注意力
大语言模型
度量
非暂态计算机可读存储介质
Softmax函数
处理器
计算机程序产品
平方根
模块
阶段
存储器
电子设备
语句
解码
系统为您推荐了相关专利信息
注意力
全局平均池化
眼睛特征
特征提取器
驾驶员人脸
车辆控制方法
大语言模型
计算机程序指令
车辆座舱
标识