摘要
本申请涉及一种多模型分时复用与并行加载的推理服务方法及系统,其中该方法包括:接收用户模型推理请求,根据所述用户模型推理请求查找对应模型;将推理所需模型部分参数层部署到GPU中;将用户模型推理请求文本输入GPU部署的参数层进行计算;在所述部分参数层进行计算的同时加载模型剩余参数层至对应指定GPU中;完成推理计算后卸载参数层回到CPU,并返回推理结果。利用GPU设备集群为模型进行推理服务,实现多模型的设备集群之间的协作,降低每个模型请求的推理时延。在预留和占用更少系统显存的情况下,能达到相同甚至更好的推理速度。自动化模型部署和调度过程,在满足每个模型请求的SLO要求下,尽可能地降低了模型的部署成本。
技术关键词
多模型
参数
非易失性计算机可读存储介质
计算机程序指令
文本
信息存储模块
部署算法
服务设备
策略
处理器
服务系统
编码
集群
文件夹
序列
时延
存储器
系统为您推荐了相关专利信息
采集单元
管理系统
循环神经网络模型
水肥
数据处理模块