用于大语言模型推理的LoRA权重加载方法及装置

AITNT
正文
推荐专利
用于大语言模型推理的LoRA权重加载方法及装置
申请号:CN202510077234
申请日期:2025-01-17
公开号:CN119831052A
公开日期:2025-04-15
类型:发明专利
摘要
本公开提供了一种用于大语言模型推理的LoRA权重加载方法及装置。该方法包括:在大语言模型的推理请求中包含LoRA权重计算时,将所述推理请求添加到准备队列;在准备队列中,对N个推理请求进行预处理操作;在预处理操作过程中,将LoRA权重按照预设规则拷贝至CPU的连续缓存区;在预处理操作完成之后,将所述推理请求添加到等待队列;在推理请求被调度执行时,将所述推理请求对应的LoRA权重加载到大语言模型的GPU中以进行推理计算。本申请涉及的用于大语言模型推理的LoRA权重加载方法及装置,通过高效的权重定义方式以及批处理拷贝机制,实现了LoRA权重的高效加载,提高了大语言模型的推理效率。
技术关键词
大语言模型 队列 拷贝 批量 定义 模块 线性 内存 机制 动态 参数
系统为您推荐了相关专利信息
1
一种基于多引擎集成的恶意代码分析系统
恶意代码分析系统 系统管理模块 队列 虚拟机运行状态 恶意样本检测
2
一种基于智能优化的光伏发电与基站融合的高效负载供电配置方法
供电配置方法 蚁狮优化算法 储能管理 光伏发电预测 基站
3
基于单比特量化的频控阵MIMO雷达去耦合与目标参数估计方法
参数估计方法 互耦效应 MIMO雷达 协方差矩阵 噪声子空间
4
一种适用于航天器遥测数据的异常检测方法
航天器遥测数据 异常检测方法 LSTM模型 编码器 解码器
5
一种薄木皮智能分选方法、系统和介质
分选方法 深度学习模型 视觉检测机构 智能分选系统 直方图均衡化
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号