一种负载均衡方法、装置及电子设备

正文

推荐专利

一种负载均衡方法、装置及电子设备

申请号：CN202410881450

申请日期：2024-07-02

公开号：CN118819841A

公开日期：2024-10-22

类型：发明专利

摘要

本公开涉及一种负载均衡方法、装置及电子设备，该方法包括：获取目标服务请求；获取第一图形处理器GPU节点集合中各GPU节点的状态信息；第一GPU节点集合包括：当前可用于处理目标服务请求的GPU节点；其中，任一GPU节点的状态信息包括：该GPU节点当前执行的各推理任务的最长持续时间及处理目标服务请求所属会话中历史服务请求的次数；基于第一GPU节点集合中各GPU节点的状态信息，在第一GPU节点集合中筛选出至少一个目标GPU节点；利用至少一个目标GPU节点基于目标大语言模型处理目标服务请求。通过本公开，有效提升了大语言模型缓存数据被命中的概率，节省了算力，提高了GPU节点的效率；大大提高大语言模型提供推理服务的质量。

技术关键词

节点负载均衡方法大语言模型图形处理器非易失性计算机可读存储介质计算机程序指令键值对数据库负载均衡装置电子设备模块存储器消息

一种负载均衡方法、装置及电子设备

站点导航

APP 下载