摘要
本发明公开了一种K8s集群大模型推理GPU共享自适应动态调度方法,属于人工智能领域,能够自适应配置大模型推理所需GPU资源,提高集群中GPU配置的正确性和使用效率;自适应的方法其根据模型类型、推理或加速推理方式、模型参数量、精度,能够正确配置集群中的GPU资源;还实时检测待推理任务量及推理服务状态,根据请求长度、显卡算力、显卡使用率,及历史请求响应时间,设计回归模型预测处理请求耗时,根据回归模型,当请求流量过大时或者硬件故障时,增加部署推理实例,以提高任务处理吞吐量和系统的稳定性和可靠性,当请求量锐减时,减少部署推理实例,以节约GPU资源,进一步提高系统内GPU的使用效率。
技术关键词
动态调度方法
K8s集群
多元线性回归模型
显卡
矩阵
模型预测值
精度
中间件
资源
队列
节点
数据
系统为您推荐了相关专利信息
运载火箭
扩展卡尔曼滤波算法
显式制导方法
大气层
两阶段
卷积特征
空洞
行人检测
池化特征
ORB特征提取
数据安全共享
种子
计算机可读指令
奇异值分解算法
微小误差