基于时间分离式流水线架构的高通量大模型推理方法、装置、设备及存储介质

AITNT
正文
推荐专利
基于时间分离式流水线架构的高通量大模型推理方法、装置、设备及存储介质
申请号:CN202411619194
申请日期:2024-11-13
公开号:CN119647588B
公开日期:2025-10-21
类型:发明专利
摘要
本申请公开了一种基于时间分离式流水线架构的高通量大模型推理方法、装置、设备及存储介质,涉及大模型推理技术领域,所述基于时间分离式流水线架构的高通量大模型推理方法包括:在当前推理阶段为预填充阶段时,根据客户端请求进行预填充,确定各请求决策点的键值缓存容量;根据各请求决策点的键值缓存容量和预设内存容量确定阶段切换时机;根据所述阶段切换时机将所述当前推理阶段从所述预填充阶段切换至解码阶段,并根据预设负载平衡策略对所述客户端请求进行处理,得到目标负载平衡结果;根据所述目标负载平衡结果和流水线架构进行大模型的推理,并根据推理结果得到所述客户端请求对应的输出文本。提高了高通量大模型推理的效率。
技术关键词
流水线架构 阶段 推理方法 客户端 高通量 键值 决策 解码 策略 推理技术 推理装置 文本 基线 处理器 可读存储介质 模块 存储器 计算机 数据
系统为您推荐了相关专利信息
1
一种肉鸡肢体内外翻畸形诊断标志物及其应用
标志物 肉鸡 核苷酸 高通量测序技术 荧光定量法
2
高能量密度材料结构的能量预测方法
高能量密度材料 参数 多元线性回归模型 双向长短期记忆 粒子群优化算法
3
一种基于物理感知的语义图像编辑方法及系统
图像编辑方法 语义 物理 网络 多阶段
4
一种基于视觉检测的动作风险感知方法
光源模组 相机模组 三维模型 风险 机械臂构造
5
一种数字集成电路可感知优化的布线前时序预测方法、电子设备及存储介质
互连线 时序预测方法 数字集成电路 网络 布线
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号