摘要
本申请涉及大语言模型技术领域,涉及一种基于缓存辅助并行推测解码的大模型推理方法及系统。所述方法包括:将第一起草模型产生的第一候选词置入缓存区;获取第二起草模型产生的第二候选词;在候选词序列中查询第二候选词所命中的第一目标候选词;将第二候选词和第一目标候选词作为第二起草模型下一个第二推理周期的词元序列;将第二起草模型得到的第二候选词以及第一候选词置入所述缓存区;获取推理词元;在候选词序列中查询第二目标候选词;将推理词元和第二目标候选词作为目标推理模型下一个第三推理周期的词元序列。本申请的目标推理模型进行一次词元推理能够得到多个推理词元,大大提高了目标推理模型的推理速度。
技术关键词
推理方法
序列
周期
大语言模型
解码
推理系统
速度