摘要
本公开提供了大语言模型的推理方法、装置、电子设备及介质。所述方法包括:接收推理请求,并将推理请求的输入序列按固定词元数量划分为一个或多个逻辑块,其中输入序列是推理请求的提示词的词元序列;针对每个逻辑块:基于所述逻辑块的摘要值计算序列,计算所述逻辑块的摘要值作为第一摘要值,其中所述摘要值计算序列是从所述输入序列的起始词元到所述逻辑块的结尾词元的词元序列;判断是否存在与所述第一摘要值相同的第二摘要值,其中所述第二摘要值是在物理块中存储有KV缓存的已推理逻辑块的摘要值,所述物理块是用于KV缓存的存储空间;以及根据所述判断的结果,为所述逻辑块分配物理块;以及使所述大语言模型针对所述推理请求进行推理。
技术关键词
摘要
推理方法
逻辑
大语言模型
物理
序列
推理装置
管理器
电子设备
计算机
分配单元
处理器通信
指令
可读存储介质
存储器
算法
系统为您推荐了相关专利信息
知识图谱构建方法
关系型数据库系统
逻辑
节点
构建知识图谱
智能驾驶系统
数字孪生
行驶状态信息
线控底盘
定位模块
动作分割方法
人体骨架
分支
动作特征
动作视频提取