摘要
本公开涉及一种模型部署方法、装置、可读介质、电子设备及程序产品,方法包括:确定机器学习模型的参数信息以及用于部署机器学习模型的服务器的显卡显存;根据参数信息,确定机器学习模型在推理计算过程中所需要的目标显存;根据显卡显存和目标显存,确定机器学习模型在服务器中能够处理的最大请求数;根据最大请求数将机器学习模型部署在服务器中。由此,可以快速得到机器学习模型在服务器中能够处理的最大请求数,从而基于该最大请求数进行模型部署,提高模型部署效率。另外,由于最大请求数根据显卡显存确定,由此可以在服务器的显存允许范围内尽可能多的提高机器学习模型的吞吐量,使得机器学习模型可以更快地处理请求,减少用户等待时间。
技术关键词
机器学习模型
模型部署方法
服务器
显卡
注意力机制
键值
元素
参数
存储装置
钩子
电子设备
计算机程序产品
编码器
介质
尺寸
模块
数据
精度
系统为您推荐了相关专利信息
感知装置
物联
数据采集单元
数据处理单元
机载服务器
审计方法
神经网络模型
智能合约交易
智能合约代码
多层感知机
车速预测方法
融合特征
深度学习模型
交通
特征选择方法
订正方法
风速
机器学习模型训练
数据
滑动窗口技术