摘要
本申请公开一种大语言模型推理加速方法、装置、设备及介质,涉及模型加速技术领域,该方法包括:获取输入序列;基于输入序列,通过预训练语言模型的解码头获取第一预测token集合;基于输入序列,通过至少一个新增解码头并行获取至少一个后续预测token集合;基于第一预测token集合和至少一个后续预测token集合,生成所有候选token序列;基于输入序列,将每个候选token序列输入至预训练语言模型,计算每个候选token序列在预训练语言模型中的输出概率;基于输出概率及与每个候选token序列中对应预测位置相关联的新增解码头的预测概率,从所有候选token序列中确定目标输出序列。
技术关键词
预训练语言模型
序列
码头
大语言模型
特征提取模块
加速装置
处理器
动态
存储器
笛卡尔
可读存储介质
指标
电子设备
网络
计算机
策略
算法
系统为您推荐了相关专利信息
输电线路巡检方法
像素点
导线
均值漂移算法
图像处理
搜索意图
信息搜索方法
文本
多模态数据分析
图像
代码摘要生成方法
多粒度特征
抽象语法树
编码器
代表