摘要
本申请实施例公开了一种大语言模型的推理方法以及装置,用于提升大语言模型的推理计算效率。本申请实施例方法包括:接收推理任务,推理任务携带语素编号,语素编号用于标识待进行推理计算的语素,语素包括基于大语言模型的输入文本确定的一个或多个子词。基于推理任务对应的语素编号查询全局索引树,确定目标推理节点,全局索引树包括分布式推理集群中多个推理节点对应的子树,目标推理节点对应的子树为全局索引树中与语素编号的相似匹配度大于阈值的子树,相似匹配度指示推理计算中可复用的键值缓存数据数量。基于目标推理节点执行推理任务。
技术关键词
大语言模型
键值
节点
神经网络处理单元
索引
文本
推理方法
集群
图形处理单元
数据处理单元
计算机程序产品
处理器
指令
推理装置
词语
分词
关系
系统为您推荐了相关专利信息
快速生成方法
新能源场站
电力系统机组组合
机组组合模型
样本
神经肌肉功能
临床辅助决策
患者
面部
信息预警方法