摘要
本公开的实施例提供了一种大语言模型推理优化系统、方法、设备以及存储介质。该系统包括:异步KV缓存预取模块、异构Speculative解码模块、动态模型重分片调度模块、Memory‑Aware动态批次模块以及调度控制引擎,其能够将异步KV缓存预取模块、异构Speculative解码模块、动态模型重分片调度模块、Memory‑Aware动态批次模块有机整合,并在调度控制引擎统一协调下形成一套可闭环自适应优化体系,从而实现推理过程中的模块级联动、自适应协同与性能反馈闭环,最终在不影响大语言模型准确性的前提下,显著提升推理阶段的吞吐能力、响应速度及资源利用率。
技术关键词
预取模块
大语言模型
解码模块
动态
分片方式
异构
阶段
闭环
分块策略
机制
缓存策略
解码方式
性能监控
计算机
电子设备
处理器通信
系统为您推荐了相关专利信息
疾病
医疗模型训练方法
模型训练装置
大语言模型
电子健康记录
高速公路充电桩
分布式充电桩
管理系统
控制终端
手持终端
实时监测数据
智能调控方法
网络
催化剂
pH调节