摘要
本发明公开了一种基于预测解码的大语言模型的推理加速方法及装置,方法包括:获取用户输入,基于特征向量,期望大语言模型提供与特征向量对应的预期输出;特征向量同步输入给并发推理小语言模型和大语言模型,小语言模型基于特征向量生成顺序的NUM个token语段并将其按生成顺序逐一发送给大语言模型;大语言模型基于特征向量进行推理,在接收到token语段时,中断推理,基于当前的推理结果开启对token语段的概率验证;基于概率验证结果,确定输出序列。本方法利用小模型小语言模型提前快速的生成多个候选token,相比逐个token生成,该方法大幅提升了生成效率。
技术关键词
大语言模型
序列
解码
关键词
加速装置
数据获取模块
指令
电子设备
处理器
输出模块
可读存储介质
存储器
计算机
数值