多模型分时复用与并行加载的推理服务方法及系统

AITNT
正文
推荐专利
多模型分时复用与并行加载的推理服务方法及系统
申请号:CN202510173996
申请日期:2025-02-17
公开号:CN120218228A
公开日期:2025-06-27
类型:发明专利
摘要
本申请涉及一种多模型分时复用与并行加载的推理服务方法及系统,其中该方法包括:接收用户模型推理请求,根据所述用户模型推理请求查找对应模型;将推理所需模型部分参数层部署到GPU中;将用户模型推理请求文本输入GPU部署的参数层进行计算;在所述部分参数层进行计算的同时加载模型剩余参数层至对应指定GPU中;完成推理计算后卸载参数层回到CPU,并返回推理结果。利用GPU设备集群为模型进行推理服务,实现多模型的设备集群之间的协作,降低每个模型请求的推理时延。在预留和占用更少系统显存的情况下,能达到相同甚至更好的推理速度。自动化模型部署和调度过程,在满足每个模型请求的SLO要求下,尽可能地降低了模型的部署成本。
技术关键词
多模型 参数 非易失性计算机可读存储介质 计算机程序指令 文本 信息存储模块 部署算法 服务设备 策略 处理器 服务系统 编码 集群 文件夹 序列 时延 存储器
系统为您推荐了相关专利信息
1
基于进化算法的轮毂生产工段间缓存量计算方法
量计算方法 染色体 机组 进化算法 代表
2
一种用于盐碱地的水肥盐一体化实时监测与管理系统
采集单元 管理系统 循环神经网络模型 水肥 数据处理模块
3
聊天机器人的交互方法、装置、设备及存储介质
聊天机器人 适配器 交互方法 核心 装饰器模式
4
一种信息检索方法、装置、设备以及存储介质
文本 同义词 信息检索方法 语义 分词词典
5
基于数模驱动构件库的公路工程参数化建模方法
参数化建模方法 路基 基线 过渡段构件 三维模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号