摘要
本公开提供了一种用于大语言模型的LoRA权重管理方法及装置。该方法包括:大语言模型的推理系统获取LoRA权重数据,所述LoRA权重数据包括:低秩矩阵A和低秩矩阵B;确定所述LoRA权重数据的存储位置;按照所述存储位置将所述低秩矩阵A和所述低秩矩阵B分别以页为单位进行储存;记录LoRA权重数据和其对应储存页之间的映射关系;大语言模型的推理系统根据所述映射关系调用所述LoRA权重数据以进行推理计算。本申请涉及的用于大语言模型的LoRA权重管理方法及装置,通过分页存储和映射管理LoRA权重,能够提升显存利用率和计算效率,支持大规模模型灵活扩展,适配多硬件环境,优化推理性能。
技术关键词
大语言模型
推理系统
权重管理方法
矩阵
页面参数
关系
数据模块
管理装置
输出特征
系统为您推荐了相关专利信息
电离层建模方法
消除接收机
精密单点定位
表达式
加权最小二乘
大规模MIMO系统
系统能量效率
接入点
信道状态信息
遗传算法优化
碳纤维复合材料
空间分布函数
链接结构
数据
边缘微结构
傅里叶变换算法
波束
频率
多通道
稀疏傅里叶变换
模拟电路故障诊断方法
布谷鸟搜索算法
鸟窝
深度信念网络
故障预测模型