摘要
本发明公开了基于强化学习分块的云际大模型推理任务调度方法,目的是解决现有调度方法TBT和TTFT难以有效平衡的问题。技术方案是先构建由任务队列管理模块、实时状态采集模块、动态自适应预填充分块模块、调度模块组成的基于强化学习的自适应预填充分块的云际大模型推理任务调度系统;对调度系统进行训练,使得训练后的强化学习智能体能根据系统的任务状态和资源状态实时动态划分预填充分块;训练好的调度系统对云际任务进行调度时,根据系统的任务状态和资源状态实现预填充分块的尺寸自适应调整,且在对任务进行预填充的同时对已经完成预填充的任务进行解码,实现计算资源高效利用,使得TTFT‑TBT指标优化以及总运行时间降低。
技术关键词
队列管理
资源状态信息
分块
任务调度方法
模块
任务调度系统
状态采集方法
动态
编码向量
序列
解码
深度强化学习模型
参数
大语言模型
策略
元素
网络