一种基于卸载流水线的大语言模型推理方法

正文

推荐专利

一种基于卸载流水线的大语言模型推理方法

申请号：CN202510231932

申请日期：2025-02-28

公开号：CN120146191A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开一种基于卸载流水线的大语言模型推理方法，根据获取到大语言模型的模型结构信息和模型配置信息，以及推理设备的硬件规格信息和系统运行负载信息，通过计算得到最优卸载推理策略，之后再将最优卸载推理策略中的任务通过细粒度流水线执行调度，以输出大语言模型的卸载推理结果。本发明方法为根据输入的大语言模型信息和系统硬件环境自动配置推理任务，优化硬件资源使用和推理性能。为面向大语言模型在本地设备上的部署，针对使用固态硬盘的卸载进行传输优化，以提升数据传输速度。同时本发明还针对卸载推理进行细粒度的流水线任务调度，通过利用流水线化模型的卸载推理，就能够显著提升推理并发度以及模型吞吐量。

技术关键词

推理方法流水线固态硬盘大语言模型策略键值输出序列长度低内存开销阶段多层感知机高性能任务调度层级框架注意力数据内核批量

系统为您推荐了相关专利信息

一种基于大语言模型的自动定位引入缺陷的提交的方法

大语言模型语句识别方法程序日期

基于改进灰狼算法的异常情绪识别方法

灰狼算法情绪识别方法鲶鱼效应参数网络

关系数据转化成属性图的自动化方法及装置

实体关系大语言模型自动化方法模式

一种基于机器视觉的LCD液晶屏缺陷检测方法及系统

视觉检测仪器优化预测模型背光亮度策略

一种基于区域性远程审方平台的处方审核方法及系统

处方审核方法远程审方复杂度风险分析报告任务分配策略

一种基于卸载流水线的大语言模型推理方法

站点导航

APP 下载