基于准确率缩放的高吞吐大模型推理方法

正文

推荐专利

基于准确率缩放的高吞吐大模型推理方法

申请号：CN202510842862

申请日期：2025-06-23

公开号：CN120849092A

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种基于准确率缩放的高吞吐大模型推理方法，属于计算机科学人工智能领域。本方法包括：根据历史用户请求量数据，通过EWMA预测算法预测下一时段的用户请求量；将预测的请求量输入基于完全背包问题的策略生成算法，利用资源分配机制对加速卡进行分配，将多任务问题转化为单任务子问题；将单任务子问题建模为完全背包问题；逐个解决所有完全背包问题后将调度策略结果输出回大模型推理系统；根据模型调度策略，采用分批次渐进调整的方式，通过按比例轮换调整集群资源的方式实现模型更换的平滑过渡。本发明通过准确率缩放技术对大模型推理系统中的推理模型进行自适应的调整，做到零成本提升大模型推理系统的吞吐量，并降低SLO冲突率。

技术关键词

推理方法推理系统加速卡资源分配机制计算机科学人工智能动态规划算法背包策略多任务缩放技术处理器集群生成算法存储器可读存储介质程序数据

系统为您推荐了相关专利信息

一种智能防摇摆起重机械控制系统

起重机械控制系统分段控制单元机架组件安全监控模块数据处理单元

一种基于一物一码的bC一体化营销方法

营销方法扫码数字孪生控制策略动态更新

一种驾驶行为风险评估方法及系统

风险评估方法模糊推理系统画像模型参数核密度估计方法

一种水库、水闸运行危险源辨识与风险评价的方法

危险源辨识风险水库模糊数学因子

大语言模型的推理方法、大语言模型的训练方法

大语言模型节点样本推理方法内容审核技术

基于准确率缩放的高吞吐大模型推理方法

站点导航

APP 下载