摘要
本发明公开了一种基于低秩微调的大语言模型端云协同推理系统,属于端边云计算的推理优化技术领域。建立端云协同推理架构,在离线阶段,云侧基于不同下游任务的训练数据对大语言模型进行参数微调;在线阶段,通过“变分自编码器‑高斯混合模型”聚类对用户请求进行分类,判断端侧缓存中是否存在匹配当前任务的低秩适配器,若是,则在端侧执行推理;否则,将该任务转发至云侧。当该架构处理过若干用户请求后,基于Mamba模型分析用户历史请求和缓存状态,动态更新端侧低秩适配器库。实时监控端云负载与推理延迟,根据任务重复率增量下发新适配器至端侧。本发明实现系统动态平衡,在降低计算和存储开销的同时,确保了系统的高效性和适应性。
技术关键词
端云协同
适配器
推理系统
缓存替换策略
高斯混合模型
推理架构
状态空间模型
矩阵
编码器
损失函数取值
智能分类器
动态更新
阶段
残差系数
预训练模型
分类阈值
离线
数据
学习算法
模型更新
系统为您推荐了相关专利信息
低功耗门铃电路
图像传感电路
主控电路
光敏检测电路
防拆电路
推理系统
边缘计算方法
深度神经网络模型
物联网设备
学生
图像分割模型
图像分割方法
注意力编码器
结构特征提取
图像编码器
异常检测方法
异常检测系统
无监督
单类支持向量机
基线
时空分布预测方法
连续特征
离散特征
模糊推理系统
异构