一种面向长文本任务的大模型KV缓存多维压缩方法和系统

AITNT
正文
推荐专利
一种面向长文本任务的大模型KV缓存多维压缩方法和系统
申请号:CN202510850067
申请日期:2025-06-24
公开号:CN120745761A
公开日期:2025-10-03
类型:发明专利
摘要
本申请提供一种面向长文本任务的大模型KV缓存多维压缩方法和系统,方法包括:从长文本任务相关语料中采样能够覆盖大语言模型的上下文结构和语义模式的输入样本,构建校准数据集;将预训练的所述大语言模型加载至推理框架中,使用所述校准数据集进行前向推理,提取前向推理过程中生成的每一层KV缓存,并按层级存储;对每一层的所述KV缓存进行奇异值分解,并计算前r个奇异值能量占比,用于判断该层KV缓存的低秩程度;根据判断的所述低秩程度,在秩维度和量化维度上进行联合压缩;将联合压缩后的所有层的KV缓存用于推理部署。本申请实现在长文本任务中对大语言模型KV缓存的高效压缩与精度保持。
技术关键词
大语言模型 文本 临界状态结构 校准 层级 低秩结构 对话方法 压缩系统 处理器 语义 数据 样本 模块 框架 可读存储介质 模式 存储器 动态 程序 计算机
系统为您推荐了相关专利信息
1
分片区块链系统及其区块链数据同步与传输方法
区块链系统 区块链数据同步 主节点 传输方法 区块链算法技术
2
文件的筛选方法及装置
哈希算法 索引 筛选方法 文件夹 程序
3
基于大模型对空管行业进行段落匹配知识问答方法及系统
知识问答方法 缓存策略 语义检索技术 计算机执行指令 检索策略
4
一种直播字幕生成方法及相关装置
音频分块 字幕生成方法 语音活动检测 离线语音识别模型 文本
5
一种对抗性协作检索增强方法
检测器 阶段 对抗性 记忆 交互内容
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号