基于准确率缩放的高吞吐大模型推理方法

AITNT
正文
推荐专利
基于准确率缩放的高吞吐大模型推理方法
申请号:CN202510842862
申请日期:2025-06-23
公开号:CN120849092A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种基于准确率缩放的高吞吐大模型推理方法,属于计算机科学人工智能领域。本方法包括:根据历史用户请求量数据,通过EWMA预测算法预测下一时段的用户请求量;将预测的请求量输入基于完全背包问题的策略生成算法,利用资源分配机制对加速卡进行分配,将多任务问题转化为单任务子问题;将单任务子问题建模为完全背包问题;逐个解决所有完全背包问题后将调度策略结果输出回大模型推理系统;根据模型调度策略,采用分批次渐进调整的方式,通过按比例轮换调整集群资源的方式实现模型更换的平滑过渡。本发明通过准确率缩放技术对大模型推理系统中的推理模型进行自适应的调整,做到零成本提升大模型推理系统的吞吐量,并降低SLO冲突率。
技术关键词
推理方法 推理系统 加速卡 资源分配机制 计算机科学人工智能 动态规划算法 背包 策略 多任务 缩放技术 处理器 集群 生成算法 存储器 可读存储介质 程序 数据
系统为您推荐了相关专利信息
1
一种智能防摇摆起重机械控制系统
起重机械控制系统 分段控制单元 机架组件 安全监控模块 数据处理单元
2
一种基于一物一码的bC一体化营销方法
营销方法 扫码 数字孪生 控制策略 动态更新
3
一种驾驶行为风险评估方法及系统
风险评估方法 模糊推理系统 画像模型 参数 核密度估计方法
4
一种水库、水闸运行危险源辨识与风险评价的方法
危险源辨识 风险 水库 模糊数学 因子
5
大语言模型的推理方法、大语言模型的训练方法
大语言模型 节点 样本 推理方法 内容审核技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号