摘要
本发明公开一种基于无服务计算的大模型在线推理服务实现方法,涉及模型推理技术领域,该实现方法包括如下操作:构建大模型资源嗅探接口,用于实现先嗅探服务器资源后传输推理数据JSON的API Server方式;构建模型预加载模块,用于使用模型分片技术快速加载大模型;构建共享内存模块,用于对GPU和CPU内存进行规划管理,并动态演绎模拟内存使用率;在基于无服务计算原理实现模型推理并发弹性扩缩容时,使用GPU资源共享。本发明解决了大模型在线推理资源占有较高,资源预热慢等问题,可以避免资源浪费,提高资源的利用率,快速响应的在线推理服务,显著提升用户体验。
技术关键词
内存模块
分片技术
服务器内存
客户端
在线
资源分配策略
资源共享
服务端
资源状态信息
云平台
数据
接口
动态
推理技术
虚拟化技术
规划
格式
系统为您推荐了相关专利信息
在线故障测距方法
局部放电监测
电缆老化
神经网络架构
生成电缆
物联网系统
计量仪表
对象
远程控制模块
可视化监控功能
无人机路径规划
粒子群算法求解
无人机视觉系统
地理信息数据
障碍物