基于预测解码的大语言模型的推理加速方法及装置

正文

推荐专利

申请号：CN202410807709

申请日期：2024-06-21

公开号：CN118886511A

公开日期：2024-11-01

类型：发明专利

摘要

本发明公开了一种基于预测解码的大语言模型的推理加速方法及装置，方法包括：获取用户输入，基于特征向量，期望大语言模型提供与特征向量对应的预期输出；特征向量同步输入给并发推理小语言模型和大语言模型，小语言模型基于特征向量生成顺序的NUM个token语段并将其按生成顺序逐一发送给大语言模型；大语言模型基于特征向量进行推理，在接收到token语段时，中断推理，基于当前的推理结果开启对token语段的概率验证；基于概率验证结果，确定输出序列。本方法利用小模型小语言模型提前快速的生成多个候选token，相比逐个token生成,该方法大幅提升了生成效率。

技术关键词

大语言模型序列解码关键词加速装置数据获取模块指令电子设备处理器输出模块可读存储介质存储器计算机数值

基于预测解码的大语言模型的推理加速方法及装置

站点导航

APP 下载