摘要
本发明提供一种基于云计算平台的多LoRA大语言模型部署系统,云计算AI平台层为推理过程训练出与基础大语言模型与相适应的LoRA适配器;多LoRA动态加载层根据请求参数动态切换需要挂载的LoRA适配器,按照请求参数中的业务优先级来进行GPU优化配置,加载基础大语言模型,挂载若干以稀疏矩阵形式叠加的LoRA适配器;资源调度优化层响应于资源调度申请,基于容器编排平台输出经过优先级管理和硬件感知优化后的请求参数至LoRA动态加载层。本发明将LoRA与容器编排深度融合,实现训练与推理的自动化流水线。显存共享机制让多个业务场景共享同一个基础大语言模型,按需加载LoRA适配器,大幅降低显存占用。支持从数据准备到模型服务的全生命周期管理,显著降低大模型部署成本。
技术关键词
适配器
资源调度优化
大语言模型
对象存储服务
资源分配模块
动态
优先级队列调度
模型训练模块
平台
服务质量机制
缓存机制
数据处理服务
基础
生命周期管理
自动化流水线
参数
容器
系统为您推荐了相关专利信息
表情面板
拾音传感器
情感类别
情感分类模型
俯仰电机
高频变压器
适配器电路
输入整流滤波电路
输出整流滤波电路
PWM控制电路
意图
大语言模型
数据标注方法
审核规则
可读存储介质
报告生成方法
大语言模型
序列特征
影像
生成指令
标准化接口
接口调用方法
适配器
接口调用请求
报文模板