摘要
本发明涉及计算机技术领域,公开了一种推理服务管理方法、设备、介质及计算机程序产品,包括:接收语言模型对话,利用负载均衡器将对话转发至相应的推理服务副本;在语言模型推理服务运行时,利用推理服务伸缩组件统计推理服务副本在设定周期内的吞吐量数据;当吞吐量数据超过设定吞吐量阈值时,通过推理服务伸缩组件向推理服务资源调度器发送扩容通知信号,以使推理服务资源调度器进行推理服务扩容,得到扩容副本;利用负载均衡器配置扩容副本的地址。这样将语言模型服务中的吞吐量作为进行服务扩容、负载均衡选择时的依据,当吞吐量超过阈值时触发语言模型推理服务的扩容,进而最优化分配使用资源,能够提高资源利用率和完善用户体验。
技术关键词
服务管理方法
负载均衡器
副本
资源调度器
标识符
非易失性存储介质
计算机程序产品
吞吐量性能测试
创建语言模型
服务管理设备
节点
统计语言模型
集群
处理器
存储计算机程序
关系
通知
实时数据
系统为您推荐了相关专利信息
建筑信息模型
三维模型
可视化展示系统
着色
模块
形貌特征
电路拓扑结构
检测异常区域
断点
电路板设计
分布式模型
深度神经网络模型
机器学习模型
阶段
副本