摘要
一种基于细粒度传算协同的分布式大语言模型推理方法和装置,其方法包括:(1)系统初始化,建立流水线并行推理架构;(2)实时监测系统,判断不同Micro‑Batch的推理阶段,监测节点间的网络状态;(3)采用加权优先级调度算法协调Prefill数据和Decode数据的传输;(4)采用自适应分块算法动态确定Prefi ll数据的最优分块大小。本发明通过加权优先级调度算法和自适应分块算法,实现Prefill数据和Decode数据传输和计算的细粒度协同,解决传输竞争问题。可以提升GPU利用率,降低请求推理时延,提高系统吞吐量,并能够根据网络条件动态调整传输策略,适用于各种分布式部署场景,具有广泛的应用价值。
技术关键词
大语言模型
推理方法
优先级调度算法
分块算法
实时监测系统
推理架构
数据
流水线
队列
系统吞吐量
推理装置
阶段
时延
网络
多设备
处理器
动态
节点数
系统为您推荐了相关专利信息
车载音乐推荐方法
车载终端
音乐搜索引擎
面部表情识别模型
大语言模型
法律条文检索方法
数据嵌入
关键词提取方法
词嵌入模型
大语言模型
梯级水电调度
智能生成系统
大语言模型
梯级水电站
评估系统
实时监测系统
农田环境监测
土壤湿度传感器
窄带物联网
二维码
代码特征
抽象语法树
大语言模型
神经网络模型
计算机设备