一种基于层级递减KV缓存压缩的级联投机推理方法及系统

正文

推荐专利

申请号：CN202510839998

申请日期：2025-06-23

公开号：CN120764673A

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种基于层级递减KV缓存压缩的级联投机推理方法及系统，该方法首先将上下文提示文本输入目标模型编码，生成KV缓存，计算出token之间的注意力分数。其次基于最后输入token的注意力分数降序排序，选择前k个注意力分数对应的KV缓存块作为级联中间层缓存，加载轻量级大语言模型作为草稿模型，并采用层级递减KV缓存压缩策略维护草稿模型缓存。然后基于所有缓存，构建双层级联投机推理架构，获取目标推理路径，并更新缓存。最后重复上述操作，直至按照目标推理路径输出上下文提示文本对应的目标响应数据。本发明降低KV缓存占比的同时提高全KV缓存的目标模型的草稿token接受率，减少精度的下降。

技术关键词

级联中间层推理方法推理架构大语言模型注意力层级序列滑动窗口推理系统文本策略输入模块输出模块数据编码表达式阶段精度

系统为您推荐了相关专利信息

基于历史对话编辑的上下文学习能力引导方法

大语言模型编辑样本有效性消息

一种基于大语言模型和通信控制系统及方法

大语言模型通信控制方法关键词通信控制系统数据传输模块

一种基于大语言模型的水利业务动态响应方法和系统

大语言模型水利生成业务响应用户需求平台

一种基于双液相分离的核酸非酶扩增方法、装置及应用

荧光读取装置扩增检测装置扩增方法液相核酸检测方法

诈骗线索生成方法、装置及设备

关键词文本线索生成方法长短期记忆模型

一种基于层级递减KV缓存压缩的级联投机推理方法及系统

站点导航

APP 下载