一种基于无服务计算的大模型在线推理服务实现方法

AITNT
正文
推荐专利
一种基于无服务计算的大模型在线推理服务实现方法
申请号:CN202411538875
申请日期:2024-10-31
公开号:CN119512744A
公开日期:2025-02-25
类型:发明专利
摘要
本发明公开一种基于无服务计算的大模型在线推理服务实现方法,涉及模型推理技术领域,该实现方法包括如下操作:构建大模型资源嗅探接口,用于实现先嗅探服务器资源后传输推理数据JSON的API Server方式;构建模型预加载模块,用于使用模型分片技术快速加载大模型;构建共享内存模块,用于对GPU和CPU内存进行规划管理,并动态演绎模拟内存使用率;在基于无服务计算原理实现模型推理并发弹性扩缩容时,使用GPU资源共享。本发明解决了大模型在线推理资源占有较高,资源预热慢等问题,可以避免资源浪费,提高资源的利用率,快速响应的在线推理服务,显著提升用户体验。
技术关键词
内存模块 分片技术 服务器内存 客户端 在线 资源分配策略 资源共享 服务端 资源状态信息 云平台 数据 接口 动态 推理技术 虚拟化技术 规划 格式
系统为您推荐了相关专利信息
1
一种电缆在线故障测距方法、系统及终端
在线故障测距方法 局部放电监测 电缆老化 神经网络架构 生成电缆
2
一种建筑模板焊接封板装置
封板装置 建筑模板 焊接台 阻尼弹簧 焊接机械臂
3
一种应用物联网系统的计量仪表在线检测被测对象的方法
物联网系统 计量仪表 对象 远程控制模块 可视化监控功能
4
融合物理知识和图网络的逆止阀多相流量特性的建模方法
多相流量 GCN模型 建模方法 逆止阀 阶段
5
基于多目标无人机路径规划的方法、装置、设备和存储介质
无人机路径规划 粒子群算法求解 无人机视觉系统 地理信息数据 障碍物
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号