推理服务管理方法、设备、介质及计算机程序产品

正文

推荐专利

申请号：CN202510025516

申请日期：2025-01-08

公开号：CN119415273A

公开日期：2025-02-11

类型：发明专利

摘要

本发明涉及计算机技术领域，公开了一种推理服务管理方法、设备、介质及计算机程序产品，包括：接收语言模型对话，利用负载均衡器将对话转发至相应的推理服务副本；在语言模型推理服务运行时，利用推理服务伸缩组件统计推理服务副本在设定周期内的吞吐量数据；当吞吐量数据超过设定吞吐量阈值时，通过推理服务伸缩组件向推理服务资源调度器发送扩容通知信号，以使推理服务资源调度器进行推理服务扩容，得到扩容副本；利用负载均衡器配置扩容副本的地址。这样将语言模型服务中的吞吐量作为进行服务扩容、负载均衡选择时的依据，当吞吐量超过阈值时触发语言模型推理服务的扩容，进而最优化分配使用资源，能够提高资源利用率和完善用户体验。

技术关键词

服务管理方法负载均衡器副本资源调度器标识符非易失性存储介质计算机程序产品吞吐量性能测试创建语言模型服务管理设备节点统计语言模型集群处理器存储计算机程序关系通知实时数据

系统为您推荐了相关专利信息

一种DDS安全通信方法

通信方法消息认证码密钥标识符数字证书报文

一种猪只识别方法、装置、设备及介质

识别方法轨迹标识符视频猪舍

一种基于BIM的智能周进度可视化展示系统及方法

建筑信息模型三维模型可视化展示系统着色模块

一种线路板生产方法及系统

形貌特征电路拓扑结构检测异常区域断点电路板设计

分布式模型训练方法及装置、程序产品、电子设备

分布式模型深度神经网络模型机器学习模型阶段副本

推理服务管理方法、设备、介质及计算机程序产品

站点导航

APP 下载