摘要
本申请公开了一种模型推理服务优化方法及相关装置,涉及人工智能领域,能够根据推理请求中的模型版本参数,确定出模型版本。首先根据表征推理请求的请求标识,从缓存中确定是否存在和请求标识相对应的推理结果数据,优先从缓存中进行推理结果数据的查找,减少大量重复推理请求对大模型的负担,提高推力请求的处理效率。在确定出缓存中未存在相对应的推理结果数据时,根据负载均衡策略从目标模型实例的各服务节点中确定出目标服务节点,并将推理请求发送至目标服务节点进行处理,目标模型实例为模型版本所表征的模型实例。实现对推理请求处理的均衡分配,能够有效减少节点资源的过载或浪费的现象,进而有效模型的服务效率。
技术关键词
服务优化方法
负载均衡策略
节点
服务发现机制
电子设备
数据
标识
计算机存储介质
存储计算机程序
调度算法
参数
优化装置
处理器
队列
存储器
模块
推力
负担
指标
周期
系统为您推荐了相关专利信息
追踪方法
PageRank算法
权重计算方法
知识体系结构
社会网络分析
病害评价方法
混凝土结构
图像结构
冗余
病害检测技术
风电设备
气象
地面站
设备运行参数
日志存储系统
电解槽
采样车
移动路径规划技术
栅格地图
动态障碍物