摘要
本发明公开了一种基于Server‑Client大模型推理任务卸载系统,包括:第一固定参数存储模块,用于集中存储Transformer主干网络的固定参数;第一通信管理接口模块,用于实现与各客户端之间的数据交互,支持KV缓存、专家参数数据的同步与传输;第一用户请求接入模块,用于负责接收和预处理来自不同用户的推理请求,分配唯一标识并进行初步调度;第一推理模块,用于根据固定参数和Transformer主干网络对推理请求进行的批量推理,生成对应的推理任务;第一专家分配决策模块,用于根据路由网络输出和系统负载,动态决定每个推理请求所需激活的专家网络。还公开了一种基于Server‑Client大模型推理任务卸载方法。本发明克服了当前大模型推理系统在多用户高并发场景下的资源瓶颈与延迟问题。
技术关键词
卸载系统
客户端
网络
接口模块
存储模块
参数
服务端统一管理
卸载方法
决策
高并发场景
注意力
多用户
推理系统
批量
数据同步
低延迟
动态
资源
系统为您推荐了相关专利信息
光纤网络单元
传输模块
虚拟文件系统
通用输入输出接口
收发模块
耕地
数据采集分析方法
国土空间规划
农作物生长周期
数据采集分析系统
艏摇运动
船舶运动数学模型
鲁棒控制方法
表达式
船舶海洋