一种基于细粒度传算协同的分布式大语言模型推理方法和装置

正文

推荐专利

申请号：CN202510857284

申请日期：2025-06-25

公开号：CN120872521A

公开日期：2025-10-31

类型：发明专利

摘要

一种基于细粒度传算协同的分布式大语言模型推理方法和装置，其方法包括：(1)系统初始化，建立流水线并行推理架构；(2)实时监测系统，判断不同Micro‑Batch的推理阶段，监测节点间的网络状态；(3)采用加权优先级调度算法协调Prefill数据和Decode数据的传输；(4)采用自适应分块算法动态确定Prefi ll数据的最优分块大小。本发明通过加权优先级调度算法和自适应分块算法，实现Prefill数据和Decode数据传输和计算的细粒度协同，解决传输竞争问题。可以提升GPU利用率，降低请求推理时延，提高系统吞吐量，并能够根据网络条件动态调整传输策略，适用于各种分布式部署场景，具有广泛的应用价值。

技术关键词

大语言模型推理方法优先级调度算法分块算法实时监测系统推理架构数据流水线队列系统吞吐量推理装置阶段时延网络多设备处理器动态节点数

系统为您推荐了相关专利信息

基于大语言模型的车载音乐推荐方法、设备及存储介质

车载音乐推荐方法车载终端音乐搜索引擎面部表情识别模型大语言模型

一种法律数据嵌入调优的法律条文检索方法及检索效果评估

法律条文检索方法数据嵌入关键词提取方法词嵌入模型大语言模型

基于大语言模型推理动作范式的梯级水电调度策略优化方法

梯级水电调度智能生成系统大语言模型梯级水电站评估系统

基于物联网的农田环境多要素实时监测系统

实时监测系统农田环境监测土壤湿度传感器窄带物联网二维码

代码当量比较方法、装置、计算机设备及存储介质

代码特征抽象语法树大语言模型神经网络模型计算机设备

一种基于细粒度传算协同的分布式大语言模型推理方法和装置

站点导航

APP 下载