推理服务管理方法、设备、介质及计算机程序产品

AITNT
正文
推荐专利
推理服务管理方法、设备、介质及计算机程序产品
申请号:CN202510025516
申请日期:2025-01-08
公开号:CN119415273A
公开日期:2025-02-11
类型:发明专利
摘要
本发明涉及计算机技术领域,公开了一种推理服务管理方法、设备、介质及计算机程序产品,包括:接收语言模型对话,利用负载均衡器将对话转发至相应的推理服务副本;在语言模型推理服务运行时,利用推理服务伸缩组件统计推理服务副本在设定周期内的吞吐量数据;当吞吐量数据超过设定吞吐量阈值时,通过推理服务伸缩组件向推理服务资源调度器发送扩容通知信号,以使推理服务资源调度器进行推理服务扩容,得到扩容副本;利用负载均衡器配置扩容副本的地址。这样将语言模型服务中的吞吐量作为进行服务扩容、负载均衡选择时的依据,当吞吐量超过阈值时触发语言模型推理服务的扩容,进而最优化分配使用资源,能够提高资源利用率和完善用户体验。
技术关键词
服务管理方法 负载均衡器 副本 资源调度器 标识符 非易失性存储介质 计算机程序产品 吞吐量性能测试 创建语言模型 服务管理设备 节点 统计语言模型 集群 处理器 存储计算机程序 关系 通知 实时数据
系统为您推荐了相关专利信息
1
一种DDS安全通信方法
通信方法 消息认证码 密钥标识符 数字证书 报文
2
一种猪只识别方法、装置、设备及介质
识别方法 轨迹 标识符 视频 猪舍
3
一种基于BIM的智能周进度可视化展示系统及方法
建筑信息模型 三维模型 可视化展示系统 着色 模块
4
一种线路板生产方法及系统
形貌特征 电路拓扑结构 检测异常区域 断点 电路板设计
5
分布式模型训练方法及装置、程序产品、电子设备
分布式模型 深度神经网络模型 机器学习模型 阶段 副本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号