一种基于层级递减KV缓存压缩的级联投机推理方法及系统

AITNT
正文
推荐专利
一种基于层级递减KV缓存压缩的级联投机推理方法及系统
申请号:CN202510839998
申请日期:2025-06-23
公开号:CN120764673A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种基于层级递减KV缓存压缩的级联投机推理方法及系统,该方法首先将上下文提示文本输入目标模型编码,生成KV缓存,计算出token之间的注意力分数。其次基于最后输入token的注意力分数降序排序,选择前k个注意力分数对应的KV缓存块作为级联中间层缓存,加载轻量级大语言模型作为草稿模型,并采用层级递减KV缓存压缩策略维护草稿模型缓存。然后基于所有缓存,构建双层级联投机推理架构,获取目标推理路径,并更新缓存。最后重复上述操作,直至按照目标推理路径输出上下文提示文本对应的目标响应数据。本发明降低KV缓存占比的同时提高全KV缓存的目标模型的草稿token接受率,减少精度的下降。
技术关键词
级联 中间层 推理方法 推理架构 大语言模型 注意力 层级 序列 滑动窗口 推理系统 文本 策略 输入模块 输出模块 数据 编码 表达式 阶段 精度
系统为您推荐了相关专利信息
1
基于历史对话编辑的上下文学习能力引导方法
大语言模型 编辑 样本 有效性 消息
2
一种基于大语言模型和通信控制系统及方法
大语言模型 通信控制方法 关键词 通信控制系统 数据传输模块
3
一种基于大语言模型的水利业务动态响应方法和系统
大语言模型 水利 生成业务 响应用户需求 平台
4
一种基于双液相分离的核酸非酶扩增方法、装置及应用
荧光读取装置 扩增检测装置 扩增方法 液相 核酸检测方法
5
诈骗线索生成方法、装置及设备
关键词 文本 线索 生成方法 长短期记忆模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号