一种模型推理服务优化方法及相关装置

正文

推荐专利

一种模型推理服务优化方法及相关装置

申请号：CN202511154991

申请日期：2025-08-18

公开号：CN121008918A

公开日期：2025-11-25

类型：发明专利

摘要

本申请公开了一种模型推理服务优化方法及相关装置，涉及人工智能领域，能够根据推理请求中的模型版本参数，确定出模型版本。首先根据表征推理请求的请求标识，从缓存中确定是否存在和请求标识相对应的推理结果数据，优先从缓存中进行推理结果数据的查找，减少大量重复推理请求对大模型的负担，提高推力请求的处理效率。在确定出缓存中未存在相对应的推理结果数据时，根据负载均衡策略从目标模型实例的各服务节点中确定出目标服务节点，并将推理请求发送至目标服务节点进行处理，目标模型实例为模型版本所表征的模型实例。实现对推理请求处理的均衡分配，能够有效减少节点资源的过载或浪费的现象，进而有效模型的服务效率。

技术关键词

服务优化方法负载均衡策略节点服务发现机制电子设备数据标识计算机存储介质存储计算机程序调度算法参数优化装置处理器队列存储器模块推力负担指标周期

系统为您推荐了相关专利信息

一种基于政策引证关联的治理结构变迁追踪方法

追踪方法 PageRank算法权重计算方法知识体系结构社会网络分析

混凝土结构病害评价方法及装置、电子设备及存储介质

病害评价方法混凝土结构图像结构冗余病害检测技术

一种生物特征检索方法、装置、设备及存储介质

特征检索方法矩阵生物模板编码后数据

一种风电场站端数据处理方法、装置、设备及介质

风电设备气象地面站设备运行参数日志存储系统

用于采样路径的规划方法及规划装置、AGV采样车

电解槽采样车移动路径规划技术栅格地图动态障碍物

一种模型推理服务优化方法及相关装置

站点导航

APP 下载