一种面向长文本任务的大模型KV缓存多维压缩方法和系统

正文

推荐专利

申请号：CN202510850067

申请日期：2025-06-24

公开号：CN120745761A

公开日期：2025-10-03

类型：发明专利

摘要

本申请提供一种面向长文本任务的大模型KV缓存多维压缩方法和系统，方法包括：从长文本任务相关语料中采样能够覆盖大语言模型的上下文结构和语义模式的输入样本，构建校准数据集；将预训练的所述大语言模型加载至推理框架中，使用所述校准数据集进行前向推理，提取前向推理过程中生成的每一层KV缓存，并按层级存储；对每一层的所述KV缓存进行奇异值分解，并计算前r个奇异值能量占比，用于判断该层KV缓存的低秩程度；根据判断的所述低秩程度，在秩维度和量化维度上进行联合压缩；将联合压缩后的所有层的KV缓存用于推理部署。本申请实现在长文本任务中对大语言模型KV缓存的高效压缩与精度保持。

技术关键词

大语言模型文本临界状态结构校准层级低秩结构对话方法压缩系统处理器语义数据样本模块框架可读存储介质模式存储器动态程序计算机

系统为您推荐了相关专利信息

分片区块链系统及其区块链数据同步与传输方法

区块链系统区块链数据同步主节点传输方法区块链算法技术

文件的筛选方法及装置

哈希算法索引筛选方法文件夹程序

基于大模型对空管行业进行段落匹配知识问答方法及系统

知识问答方法缓存策略语义检索技术计算机执行指令检索策略

一种直播字幕生成方法及相关装置

音频分块字幕生成方法语音活动检测离线语音识别模型文本

一种对抗性协作检索增强方法

检测器阶段对抗性记忆交互内容

一种面向长文本任务的大模型KV缓存多维压缩方法和系统

站点导航

APP 下载