基于强化学习分块的云际大模型推理任务调度方法

正文

推荐专利

申请号：CN202510988365

申请日期：2025-07-17

公开号：CN120872536A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了基于强化学习分块的云际大模型推理任务调度方法，目的是解决现有调度方法TBT和TTFT难以有效平衡的问题。技术方案是先构建由任务队列管理模块、实时状态采集模块、动态自适应预填充分块模块、调度模块组成的基于强化学习的自适应预填充分块的云际大模型推理任务调度系统；对调度系统进行训练，使得训练后的强化学习智能体能根据系统的任务状态和资源状态实时动态划分预填充分块；训练好的调度系统对云际任务进行调度时，根据系统的任务状态和资源状态实现预填充分块的尺寸自适应调整，且在对任务进行预填充的同时对已经完成预填充的任务进行解码，实现计算资源高效利用，使得TTFT‑TBT指标优化以及总运行时间降低。

技术关键词

队列管理资源状态信息分块任务调度方法模块任务调度系统状态采集方法动态编码向量序列解码深度强化学习模型参数大语言模型策略元素网络

基于强化学习分块的云际大模型推理任务调度方法

站点导航

APP 下载