摘要
本申请提供了一种大语言模型应用工作负载的调度方法、系统及设备,涉及模型负载调度技术领域,该方法包括:将复合大语言模型应用建模为包含常规阶段、LLM阶段及动态阶段的有向无环图;通过贝叶斯网络建模有向无环图中各阶段间的执行相关性,动态预测未完成阶段的时长分布,结合LLM执行器的实时批处理大小对LLM阶段的时长预估值进行校准;基于信息熵量化调度各就绪阶段的不确定性减少量;采用ε‑greedy策略,结合JCT优先队列与不确定性缩减优先队列分配调度资源;将任务分派至对应执行器执行,重复上述过程直至所有作业完成。解决了现有技术中调度技术难以有效应对复合LLM应用的执行时间不确定性与结构不确定性的技术问题。
技术关键词
阶段
大语言模型
贝叶斯网络建模
信息熵
执行器
队列
动态
概率分布建模
校准
策略
解码
资源
调度系统
模块
定义
变量
计算机
电子设备
索引
系统为您推荐了相关专利信息
光斑定位方法
多源信息融合
光斑位置信息
光斑中心坐标
探测器
大语言模型
自然语言
生成方法
装配模块
生成系统
打印机
数据处理方法
打印产品标识
数据处理设备
阶段
压缩编码数据
数据压缩算法
信息熵
Huffman编码
数据压缩方法