基于低秩微调的大语言模型端云协同推理系统

正文

推荐专利

申请号：CN202511253301

申请日期：2025-09-03

公开号：CN120806170A

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种基于低秩微调的大语言模型端云协同推理系统，属于端边云计算的推理优化技术领域。建立端云协同推理架构，在离线阶段，云侧基于不同下游任务的训练数据对大语言模型进行参数微调；在线阶段，通过“变分自编码器‑高斯混合模型”聚类对用户请求进行分类，判断端侧缓存中是否存在匹配当前任务的低秩适配器，若是，则在端侧执行推理；否则，将该任务转发至云侧。当该架构处理过若干用户请求后，基于Mamba模型分析用户历史请求和缓存状态，动态更新端侧低秩适配器库。实时监控端云负载与推理延迟，根据任务重复率增量下发新适配器至端侧。本发明实现系统动态平衡，在降低计算和存储开销的同时，确保了系统的高效性和适应性。

技术关键词

端云协同适配器推理系统缓存替换策略高斯混合模型推理架构状态空间模型矩阵编码器损失函数取值智能分类器动态更新阶段残差系数预训练模型分类阈值离线数据学习算法模型更新

系统为您推荐了相关专利信息

一种低功耗门铃电路

低功耗门铃电路图像传感电路主控电路光敏检测电路防拆电路

面向跨场景部署的智能边缘计算方法、系统、终端及介质

推理系统边缘计算方法深度神经网络模型物联网设备学生

基于SAM模型与图神经网络结合的息肉图像分割方法及系统

图像分割模型图像分割方法注意力编码器结构特征提取图像编码器

一种民航运价异常检测方法、系统、设备及存储介质

异常检测方法异常检测系统无监督单类支持向量机基线

一种偏置-异构环境因素下的线路故障风险时空分布预测方法

时空分布预测方法连续特征离散特征模糊推理系统异构

基于低秩微调的大语言模型端云协同推理系统

站点导航

APP 下载