摘要
本公开涉及一种负载均衡方法、装置及电子设备,该方法包括:获取目标服务请求;获取第一图形处理器GPU节点集合中各GPU节点的状态信息;第一GPU节点集合包括:当前可用于处理目标服务请求的GPU节点;其中,任一GPU节点的状态信息包括:该GPU节点当前执行的各推理任务的最长持续时间及处理目标服务请求所属会话中历史服务请求的次数;基于第一GPU节点集合中各GPU节点的状态信息,在第一GPU节点集合中筛选出至少一个目标GPU节点;利用至少一个目标GPU节点基于目标大语言模型处理目标服务请求。通过本公开,有效提升了大语言模型缓存数据被命中的概率,节省了算力,提高了GPU节点的效率;大大提高大语言模型提供推理服务的质量。
技术关键词
节点
负载均衡方法
大语言模型
图形处理器
非易失性计算机可读存储介质
计算机程序指令
键值对数据库
负载均衡装置
电子设备
模块
存储器
消息