一种基于时延测量的大模型自适应批量推理系统及方法

正文

推荐专利

申请号：CN202510762462

申请日期：2025-06-09

公开号：CN120579641A

公开日期：2025-09-02

类型：发明专利

摘要

本发明公开了一种基于时延测量的大模型自适应批量推理系统，包括：请求接收与队列管理模块，用于监听并接收外部用户或应用发送的LLM推理请求；实时时延感知与批量监控模块，用于在LLM推理过程中，实时测量和分析与当前批处理策略直接相关的性能指标；逐Token批量处理与推理执行模块，用于据调度器确定的当前批次大小，从请求队列中选取相应数量的请求，组织成一个有效的计算批次，并提交给底层的LLM推理核心执行一个或多个解码步骤；双阶段批量调整决策模块，用于获取的归一化时延比率。还公开了一种基于时延测量的大模型自适应批量推理方法。本发明实现了LLM推理服务整体性能的实质性提升与智能化管理。

技术关键词

时延推理系统批量阶段推理方法策略队列管理监控模块决策比率调度器缓存管理单元解码计数器先进先出系统运行状态数据采集单元序列

一种基于时延测量的大模型自适应批量推理系统及方法

站点导航

APP 下载