摘要
本发明涉及一种基于服务指标感知复用的分离式大语言模型推理方法和系统,用于对多个工作节点进行调度,在同一工作节点以SLO感知的方式协同调度Prefill和Decode任务,通过记录Decode操作时间与TPOT时间的差值(即TPOT松弛),当预测Prefill执行时间小于Decode节点的松弛时间时,将Prefill任务调度到复用节点,以此降低Prefill排队时间,同时把Prefill对Decode的干扰控制在可接受范围内,平衡排队时间与干扰,提升系统SLO达成率。与现有技术相比,本发明具有提高服务指标达成率、优化TTFT性能等优点。
技术关键词
推理方法
大语言模型
节点
任务调度
指标
推理系统
队列
松弛
内存
提升系统
资源
切换器
分块
离线
决策
系统为您推荐了相关专利信息
超高频RFID技术
综合管理系统
车辆信息管理系统
射频识别模块
分布式计算框架
时间卷积网络
充电站
注意力
PageRank算法
矩阵
汽车充电桩
多模态传感器
分析振动数据
特征值
电压监测数据