摘要
本发明公开了一种基于准确率缩放的高吞吐大模型推理方法,属于计算机科学人工智能领域。本方法包括:根据历史用户请求量数据,通过EWMA预测算法预测下一时段的用户请求量;将预测的请求量输入基于完全背包问题的策略生成算法,利用资源分配机制对加速卡进行分配,将多任务问题转化为单任务子问题;将单任务子问题建模为完全背包问题;逐个解决所有完全背包问题后将调度策略结果输出回大模型推理系统;根据模型调度策略,采用分批次渐进调整的方式,通过按比例轮换调整集群资源的方式实现模型更换的平滑过渡。本发明通过准确率缩放技术对大模型推理系统中的推理模型进行自适应的调整,做到零成本提升大模型推理系统的吞吐量,并降低SLO冲突率。
技术关键词
推理方法
推理系统
加速卡
资源分配机制
计算机科学人工智能
动态规划算法
背包
策略
多任务
缩放技术
处理器
集群
生成算法
存储器
可读存储介质
程序
数据
系统为您推荐了相关专利信息
起重机械控制系统
分段控制单元
机架组件
安全监控模块
数据处理单元
风险评估方法
模糊推理系统
画像模型
参数
核密度估计方法