摘要
本公开提供了一种用于大语言模型推理的LoRA权重加载方法及装置。该方法包括:在大语言模型的推理请求中包含LoRA权重计算时,将所述推理请求添加到准备队列;在准备队列中,对N个推理请求进行预处理操作;在预处理操作过程中,将LoRA权重按照预设规则拷贝至CPU的连续缓存区;在预处理操作完成之后,将所述推理请求添加到等待队列;在推理请求被调度执行时,将所述推理请求对应的LoRA权重加载到大语言模型的GPU中以进行推理计算。本申请涉及的用于大语言模型推理的LoRA权重加载方法及装置,通过高效的权重定义方式以及批处理拷贝机制,实现了LoRA权重的高效加载,提高了大语言模型的推理效率。
技术关键词
大语言模型
队列
拷贝
批量
定义
模块
线性
内存
机制
动态
参数
系统为您推荐了相关专利信息
恶意代码分析系统
系统管理模块
队列
虚拟机运行状态
恶意样本检测
供电配置方法
蚁狮优化算法
储能管理
光伏发电预测
基站
参数估计方法
互耦效应
MIMO雷达
协方差矩阵
噪声子空间
航天器遥测数据
异常检测方法
LSTM模型
编码器
解码器
分选方法
深度学习模型
视觉检测机构
智能分选系统
直方图均衡化