摘要
本发明公开了AI推理平台技术领域的一种基于推理实例快照的推理平台,由网关、调度器、节点代理、推理容器实例、容器运行时以及快照对象存储组成的系统;S1,将已初始化完成的推理容器的CPU和GPU状态保存为可迅速恢复的文件;S2,通过将GPU状态存储在内存或高速对象存储中,在将GPU状态导入显存时,获得超过操作系统文件系统带宽的性能,该基于推理实例快照的推理平台,结构设计合理,推理实例在待机状态下不占用GPU和CPU计算资源,推理实例能够低延迟启动,InferX推理平台在以下场景下可有效提升GPU资源利用率,当推理实例发生故障时,系统可快速重启新实例,以保证服务连续性;可基于实时负载动态扩展新实例,以满足突发请求需求,同时避免GPU资源闲置。
技术关键词
推理平台
快照
容器
内存
节点
对象
文件系统
虚拟机操作系统
RDMA网卡
调度器
操作系统进程
网络安全隔离
镜像
高速通信网络
待机
资源
可充分发挥
数据
系统为您推荐了相关专利信息
链路
邻居
面向无人机
多节点协作
无人机自组织网络
卸载算法
资源分配系统
车辆
模型训练模块
组网模块
三维建筑模型
数据组织结构
建筑物模型
孩子
组织模块