摘要
本申请公开了一种模型资源部署方法、装置、设备、存储介质及程序产品,涉及通信技术领域,以有效利用GPU资源。该方法包括:获取推理业务需求;根据所述推理业务需求,预估待部署的大模型所需的GPU资源;部署所需的GPU资源;在接收到推理任务的情况下,根据所述推理任务对部署的GPU资源进行调整。本申请实施例可以有效利用GPU资源。
技术关键词
资源部署方法
业务时延需求
GPU显卡
图形处理单元
令牌
处理器
收发器
计算机程序产品
组网方式
存储器
集群
通信设备
可读存储介质
批量
规模
模块
消息
系统为您推荐了相关专利信息
身份验证信息
多模式
身份验证方法
套件
动态口令验证
眼底图像分类方法
图像编码器
多模态
图像分类模型
信息熵
身份认证服务
站点
注册事件
代理服务器
执行鉴权
SysML模型
软件建模方法
时间自动机模型
形式化验证技术
软件工程技术
新能源充电站
匹配控制方法
多算法融合
逻辑
模拟退火算法