用于大语言模型推理的LoRA权重加载方法及装置

正文

推荐专利

申请号：CN202510077234

申请日期：2025-01-17

公开号：CN119831052A

公开日期：2025-04-15

类型：发明专利

摘要

本公开提供了一种用于大语言模型推理的LoRA权重加载方法及装置。该方法包括：在大语言模型的推理请求中包含LoRA权重计算时，将所述推理请求添加到准备队列；在准备队列中，对N个推理请求进行预处理操作；在预处理操作过程中，将LoRA权重按照预设规则拷贝至CPU的连续缓存区；在预处理操作完成之后，将所述推理请求添加到等待队列；在推理请求被调度执行时，将所述推理请求对应的LoRA权重加载到大语言模型的GPU中以进行推理计算。本申请涉及的用于大语言模型推理的LoRA权重加载方法及装置，通过高效的权重定义方式以及批处理拷贝机制，实现了LoRA权重的高效加载，提高了大语言模型的推理效率。

技术关键词

大语言模型队列拷贝批量定义模块线性内存机制动态参数

系统为您推荐了相关专利信息

一种基于多引擎集成的恶意代码分析系统

恶意代码分析系统系统管理模块队列虚拟机运行状态恶意样本检测

一种基于智能优化的光伏发电与基站融合的高效负载供电配置方法

供电配置方法蚁狮优化算法储能管理光伏发电预测基站

基于单比特量化的频控阵MIMO雷达去耦合与目标参数估计方法

参数估计方法互耦效应 MIMO雷达协方差矩阵噪声子空间

一种适用于航天器遥测数据的异常检测方法

航天器遥测数据异常检测方法 LSTM模型编码器解码器

一种薄木皮智能分选方法、系统和介质

分选方法深度学习模型视觉检测机构智能分选系统直方图均衡化

用于大语言模型推理的LoRA权重加载方法及装置

站点导航

APP 下载