基于服务指标感知复用的分离式大语言模型推理方法和系统

AITNT
正文
推荐专利
基于服务指标感知复用的分离式大语言模型推理方法和系统
申请号:CN202510550781
申请日期:2025-04-29
公开号:CN120611783A
公开日期:2025-09-09
类型:发明专利
摘要
本发明涉及一种基于服务指标感知复用的分离式大语言模型推理方法和系统,用于对多个工作节点进行调度,在同一工作节点以SLO感知的方式协同调度Prefill和Decode任务,通过记录Decode操作时间与TPOT时间的差值(即TPOT松弛),当预测Prefill执行时间小于Decode节点的松弛时间时,将Prefill任务调度到复用节点,以此降低Prefill排队时间,同时把Prefill对Decode的干扰控制在可接受范围内,平衡排队时间与干扰,提升系统SLO达成率。与现有技术相比,本发明具有提高服务指标达成率、优化TTFT性能等优点。
技术关键词
推理方法 大语言模型 节点 任务调度 指标 推理系统 队列 松弛 内存 提升系统 资源 切换器 分块 离线 决策
系统为您推荐了相关专利信息
1
聚氨酯混合胶脱气效果检测方法
混合胶 数据 识别气泡 真空度 分阶段
2
一种基于超高频RFID技术的非机动车综合管理系统
超高频RFID技术 综合管理系统 车辆信息管理系统 射频识别模块 分布式计算框架
3
融合时空节点信息的电动汽车充电预测方法和模型
时间卷积网络 充电站 注意力 PageRank算法 矩阵
4
基于多模态传感器融合的汽车充电桩安全监测系统
汽车充电桩 多模态传感器 分析振动数据 特征值 电压监测数据
5
基于改进哈里斯鹰算法的无线传感器网络节点分簇方法
节点 网络生存时间 算法 基站 机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号