基于服务指标感知复用的分离式大语言模型推理方法和系统

正文

推荐专利

申请号：CN202510550781

申请日期：2025-04-29

公开号：CN120611783A

公开日期：2025-09-09

类型：发明专利

摘要

本发明涉及一种基于服务指标感知复用的分离式大语言模型推理方法和系统，用于对多个工作节点进行调度，在同一工作节点以SLO感知的方式协同调度Prefill和Decode任务，通过记录Decode操作时间与TPOT时间的差值(即TPOT松弛)，当预测Prefill执行时间小于Decode节点的松弛时间时，将Prefill任务调度到复用节点，以此降低Prefill排队时间，同时把Prefill对Decode的干扰控制在可接受范围内，平衡排队时间与干扰，提升系统SLO达成率。与现有技术相比，本发明具有提高服务指标达成率、优化TTFT性能等优点。

技术关键词

推理方法大语言模型节点任务调度指标推理系统队列松弛内存提升系统资源切换器分块离线决策

系统为您推荐了相关专利信息

聚氨酯混合胶脱气效果检测方法

混合胶数据识别气泡真空度分阶段

一种基于超高频RFID技术的非机动车综合管理系统

超高频RFID技术综合管理系统车辆信息管理系统射频识别模块分布式计算框架

融合时空节点信息的电动汽车充电预测方法和模型

时间卷积网络充电站注意力 PageRank算法矩阵

基于多模态传感器融合的汽车充电桩安全监测系统

汽车充电桩多模态传感器分析振动数据特征值电压监测数据

基于改进哈里斯鹰算法的无线传感器网络节点分簇方法

节点网络生存时间算法基站机制

基于服务指标感知复用的分离式大语言模型推理方法和系统

站点导航

APP 下载