多模型分时复用与并行加载的推理服务方法及系统

正文

推荐专利

申请号：CN202510173996

申请日期：2025-02-17

公开号：CN120218228A

公开日期：2025-06-27

类型：发明专利

摘要

本申请涉及一种多模型分时复用与并行加载的推理服务方法及系统，其中该方法包括：接收用户模型推理请求，根据所述用户模型推理请求查找对应模型；将推理所需模型部分参数层部署到GPU中；将用户模型推理请求文本输入GPU部署的参数层进行计算；在所述部分参数层进行计算的同时加载模型剩余参数层至对应指定GPU中；完成推理计算后卸载参数层回到CPU，并返回推理结果。利用GPU设备集群为模型进行推理服务，实现多模型的设备集群之间的协作，降低每个模型请求的推理时延。在预留和占用更少系统显存的情况下，能达到相同甚至更好的推理速度。自动化模型部署和调度过程，在满足每个模型请求的SLO要求下，尽可能地降低了模型的部署成本。

技术关键词

多模型参数非易失性计算机可读存储介质计算机程序指令文本信息存储模块部署算法服务设备策略处理器服务系统编码集群文件夹序列时延存储器

系统为您推荐了相关专利信息

基于进化算法的轮毂生产工段间缓存量计算方法

量计算方法染色体机组进化算法代表

一种用于盐碱地的水肥盐一体化实时监测与管理系统

采集单元管理系统循环神经网络模型水肥数据处理模块

聊天机器人的交互方法、装置、设备及存储介质

聊天机器人适配器交互方法核心装饰器模式

一种信息检索方法、装置、设备以及存储介质

文本同义词信息检索方法语义分词词典

基于数模驱动构件库的公路工程参数化建模方法

参数化建模方法路基基线过渡段构件三维模型

多模型分时复用与并行加载的推理服务方法及系统

站点导航

APP 下载