摘要
本申请提供一种面向长文本任务的大模型KV缓存多维压缩方法和系统,方法包括:从长文本任务相关语料中采样能够覆盖大语言模型的上下文结构和语义模式的输入样本,构建校准数据集;将预训练的所述大语言模型加载至推理框架中,使用所述校准数据集进行前向推理,提取前向推理过程中生成的每一层KV缓存,并按层级存储;对每一层的所述KV缓存进行奇异值分解,并计算前r个奇异值能量占比,用于判断该层KV缓存的低秩程度;根据判断的所述低秩程度,在秩维度和量化维度上进行联合压缩;将联合压缩后的所有层的KV缓存用于推理部署。本申请实现在长文本任务中对大语言模型KV缓存的高效压缩与精度保持。
技术关键词
大语言模型
文本
临界状态结构
校准
层级
低秩结构
对话方法
压缩系统
处理器
语义
数据
样本
模块
框架
可读存储介质
模式
存储器
动态
程序
计算机
系统为您推荐了相关专利信息
区块链系统
区块链数据同步
主节点
传输方法
区块链算法技术
知识问答方法
缓存策略
语义检索技术
计算机执行指令
检索策略
音频分块
字幕生成方法
语音活动检测
离线语音识别模型
文本