摘要
本发明公开了一种基于层级递减KV缓存压缩的级联投机推理方法及系统,该方法首先将上下文提示文本输入目标模型编码,生成KV缓存,计算出token之间的注意力分数。其次基于最后输入token的注意力分数降序排序,选择前k个注意力分数对应的KV缓存块作为级联中间层缓存,加载轻量级大语言模型作为草稿模型,并采用层级递减KV缓存压缩策略维护草稿模型缓存。然后基于所有缓存,构建双层级联投机推理架构,获取目标推理路径,并更新缓存。最后重复上述操作,直至按照目标推理路径输出上下文提示文本对应的目标响应数据。本发明降低KV缓存占比的同时提高全KV缓存的目标模型的草稿token接受率,减少精度的下降。
技术关键词
级联
中间层
推理方法
推理架构
大语言模型
注意力
层级
序列
滑动窗口
推理系统
文本
策略
输入模块
输出模块
数据
编码
表达式
阶段
精度
系统为您推荐了相关专利信息
大语言模型
通信控制方法
关键词
通信控制系统
数据传输模块
荧光读取装置
扩增检测装置
扩增方法
液相
核酸检测方法