基于云计算平台的多LoRA大语言模型部署系统

正文

推荐专利

申请号：CN202510365835

申请日期：2025-03-26

公开号：CN120371320A

公开日期：2025-07-25

类型：发明专利

摘要

本发明提供一种基于云计算平台的多LoRA大语言模型部署系统，云计算AI平台层为推理过程训练出与基础大语言模型与相适应的LoRA适配器；多LoRA动态加载层根据请求参数动态切换需要挂载的LoRA适配器，按照请求参数中的业务优先级来进行GPU优化配置，加载基础大语言模型，挂载若干以稀疏矩阵形式叠加的LoRA适配器；资源调度优化层响应于资源调度申请，基于容器编排平台输出经过优先级管理和硬件感知优化后的请求参数至LoRA动态加载层。本发明将LoRA与容器编排深度融合，实现训练与推理的自动化流水线。显存共享机制让多个业务场景共享同一个基础大语言模型，按需加载LoRA适配器，大幅降低显存占用。支持从数据准备到模型服务的全生命周期管理，显著降低大模型部署成本。

技术关键词

适配器资源调度优化大语言模型对象存储服务资源分配模块动态优先级队列调度模型训练模块平台服务质量机制缓存机制数据处理服务基础生命周期管理自动化流水线参数容器

系统为您推荐了相关专利信息

一种机器人自主感知的头部系统

表情面板拾音传感器情感类别情感分类模型俯仰电机

一种适配器电路

高频变压器适配器电路输入整流滤波电路输出整流滤波电路 PWM控制电路

一种大语言模型数据标注方法、设备和介质

意图大语言模型数据标注方法审核规则可读存储介质

一种区域级检索增强的多视角胸片报告生成方法

报告生成方法大语言模型序列特征影像生成指令

一种接口调用方法、装置、设备及存储介质

标准化接口接口调用方法适配器接口调用请求报文模板

基于云计算平台的多LoRA大语言模型部署系统

站点导航

APP 下载