摘要
本申请公开了一种基于时间分离式流水线架构的高通量大模型推理方法、装置、设备及存储介质,涉及大模型推理技术领域,所述基于时间分离式流水线架构的高通量大模型推理方法包括:在当前推理阶段为预填充阶段时,根据客户端请求进行预填充,确定各请求决策点的键值缓存容量;根据各请求决策点的键值缓存容量和预设内存容量确定阶段切换时机;根据所述阶段切换时机将所述当前推理阶段从所述预填充阶段切换至解码阶段,并根据预设负载平衡策略对所述客户端请求进行处理,得到目标负载平衡结果;根据所述目标负载平衡结果和流水线架构进行大模型的推理,并根据推理结果得到所述客户端请求对应的输出文本。提高了高通量大模型推理的效率。
技术关键词
流水线架构
阶段
推理方法
客户端
高通量
键值
决策
解码
策略
推理技术
推理装置
文本
基线
处理器
可读存储介质
模块
存储器
计算机
数据
系统为您推荐了相关专利信息
高能量密度材料
参数
多元线性回归模型
双向长短期记忆
粒子群优化算法