一种基于无服务计算的大模型在线推理服务实现方法

正文

推荐专利

申请号：CN202411538875

申请日期：2024-10-31

公开号：CN119512744A

公开日期：2025-02-25

类型：发明专利

摘要

本发明公开一种基于无服务计算的大模型在线推理服务实现方法，涉及模型推理技术领域，该实现方法包括如下操作：构建大模型资源嗅探接口，用于实现先嗅探服务器资源后传输推理数据JSON的API Server方式；构建模型预加载模块，用于使用模型分片技术快速加载大模型；构建共享内存模块，用于对GPU和CPU内存进行规划管理，并动态演绎模拟内存使用率；在基于无服务计算原理实现模型推理并发弹性扩缩容时，使用GPU资源共享。本发明解决了大模型在线推理资源占有较高，资源预热慢等问题，可以避免资源浪费，提高资源的利用率，快速响应的在线推理服务，显著提升用户体验。

技术关键词

内存模块分片技术服务器内存客户端在线资源分配策略资源共享服务端资源状态信息云平台数据接口动态推理技术虚拟化技术规划格式

系统为您推荐了相关专利信息

一种电缆在线故障测距方法、系统及终端

在线故障测距方法局部放电监测电缆老化神经网络架构生成电缆

一种建筑模板焊接封板装置

封板装置建筑模板焊接台阻尼弹簧焊接机械臂

一种应用物联网系统的计量仪表在线检测被测对象的方法

物联网系统计量仪表对象远程控制模块可视化监控功能

融合物理知识和图网络的逆止阀多相流量特性的建模方法

多相流量 GCN模型建模方法逆止阀阶段

基于多目标无人机路径规划的方法、装置、设备和存储介质

无人机路径规划粒子群算法求解无人机视觉系统地理信息数据障碍物

一种基于无服务计算的大模型在线推理服务实现方法

站点导航

APP 下载