摘要
本发明公开了一种基于时延测量的大模型自适应批量推理系统,包括:请求接收与队列管理模块,用于监听并接收外部用户或应用发送的LLM推理请求;实时时延感知与批量监控模块,用于在LLM推理过程中,实时测量和分析与当前批处理策略直接相关的性能指标;逐Token批量处理与推理执行模块,用于据调度器确定的当前批次大小,从请求队列中选取相应数量的请求,组织成一个有效的计算批次,并提交给底层的LLM推理核心执行一个或多个解码步骤;双阶段批量调整决策模块,用于获取的归一化时延比率。还公开了一种基于时延测量的大模型自适应批量推理方法。本发明实现了LLM推理服务整体性能的实质性提升与智能化管理。
技术关键词
时延
推理系统
批量
阶段
推理方法
策略
队列管理
监控模块
决策
比率
调度器
缓存管理单元
解码
计数器
先进先出
系统运行状态
数据采集单元
序列