摘要
本发明公开一种基于卸载流水线的大语言模型推理方法,根据获取到大语言模型的模型结构信息和模型配置信息,以及推理设备的硬件规格信息和系统运行负载信息,通过计算得到最优卸载推理策略,之后再将最优卸载推理策略中的任务通过细粒度流水线执行调度,以输出大语言模型的卸载推理结果。本发明方法为根据输入的大语言模型信息和系统硬件环境自动配置推理任务,优化硬件资源使用和推理性能。为面向大语言模型在本地设备上的部署,针对使用固态硬盘的卸载进行传输优化,以提升数据传输速度。同时本发明还针对卸载推理进行细粒度的流水线任务调度,通过利用流水线化模型的卸载推理,就能够显著提升推理并发度以及模型吞吐量。
技术关键词
推理方法
流水线
固态硬盘
大语言模型
策略
键值
输出序列长度
低内存开销
阶段
多层感知机
高性能
任务调度
层级
框架
注意力
数据
内核
批量
系统为您推荐了相关专利信息
处方审核方法
远程审方
复杂度
风险分析报告
任务分配策略