一种K8s集群大模型推理GPU共享自适应动态调度方法

正文

推荐专利

申请号：CN202510480678

申请日期：2025-04-17

公开号：CN120429102A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种K8s集群大模型推理GPU共享自适应动态调度方法，属于人工智能领域，能够自适应配置大模型推理所需GPU资源，提高集群中GPU配置的正确性和使用效率；自适应的方法其根据模型类型、推理或加速推理方式、模型参数量、精度，能够正确配置集群中的GPU资源；还实时检测待推理任务量及推理服务状态，根据请求长度、显卡算力、显卡使用率，及历史请求响应时间，设计回归模型预测处理请求耗时，根据回归模型，当请求流量过大时或者硬件故障时，增加部署推理实例，以提高任务处理吞吐量和系统的稳定性和可靠性，当请求量锐减时，减少部署推理实例，以节约GPU资源，进一步提高系统内GPU的使用效率。

技术关键词

动态调度方法 K8s集群多元线性回归模型显卡矩阵模型预测值精度中间件资源队列节点数据

系统为您推荐了相关专利信息

一种运载火箭大气层外上升段碎片规避制导方法

运载火箭扩展卡尔曼滤波算法显式制导方法大气层两阶段

基于LWE问题满足后量子安全的对称可搜索加密方法

关键字密钥云服务器索引误差向量

行人眩光防护与智能阴影区域生成方法及系统

卷积特征空洞行人检测池化特征 ORB特征提取

基于虚实数据混合学习的不均衡海上船舶目标检测方法、系统、介质及产品

分类器数据样本神经网络模型仿真场景

一种数据安全共享交换方法及系统

数据安全共享种子计算机可读指令奇异值分解算法微小误差

一种K8s集群大模型推理GPU共享自适应动态调度方法

站点导航

APP 下载