摘要
本发明公开了一种基于全量和增量推理开销合并的多队列调度方法,包括如下步骤:首先,在推理任务进行全量推理过程中,根据输入长度和预测器模型大小计算任务的总资源需求和内存开销;根据所述总资源需求,结合响应时间要求和任务重要性,将任务分配到不同优先级的队列中;按照优先级队列顺序动态调度任务,结合系统负载调整执行顺序,优先执行高优先级队列中的任务;为每个任务分配时间片,监控任务执行时间,超时任务被降低优先级并移入次优先级队列,触发新任务调度;在抢占调度后,将等待队列中最晚调度任务的键值缓存从加速器内存换出至CPU内存,并在任务重新执行前换回加速器内存。
技术关键词
队列调度方法
内存
加速器
任务调度算法
时间片
资源
抢占式调度
计算方法
定义方法
表达式
键值
动态
参数
系统为您推荐了相关专利信息
组合控制方法
相互作用模型
微波炉
组合控制系统
资源依赖关系
指针分析方法
动态指针
键值对存储结构
内存泄漏检测
传播算法