一种大语言模型的部署方法及系统

正文

推荐专利

一种大语言模型的部署方法及系统

申请号：CN202510347618

申请日期：2025-03-24

公开号：CN120315864A

公开日期：2025-07-15

类型：发明专利

摘要

本发明涉及人工智能领域，尤其涉及一种大语言模型的部署方法及系统，包括：(1)服务请求端接收至少一个服务请求信息，并存放至服务请求消息队列中；(2)响应预填充阶段计算单元请求及负载状况，分配服务请求信息；(3)完成预填充阶段的处理，得到至少一个运行结果；(4)负载均衡器根据解码阶段计算单元负载情况，决定该阶段的任务运行计算单元；(5)将预填充阶段的运行结果输入到解码阶段的任务运行计算单元中，输出结果。本发明的有益效果在于：将预填充阶段和解码阶段分别部署在高性能计算能力和大内存的机器上，均衡负载任务，实现最大化的硬件利用，减少闲置算力，降低整体延迟，提高吞吐量，增强系统的扩展性和容错性。

技术关键词

大语言模型负载均衡器阶段解码高性能计算能力节点负载均衡策略配额队列消息计算机入口内存实体

系统为您推荐了相关专利信息

成长型机器人的控制方法及装置、存储介质、计算机设备

机器人语音文本大语言模型记忆

问答方法及装置

问答知识库答案客户端问答方法大语言模型

一种基于因果图的代价最小必要因故障根因定位方法、系统及计算机可读存储介质

定位方法解码器数据梯度下降算法编码器

一种基于农业大数据的大蒜种植全流程数据库服务系统

数据库服务系统最佳收获时间近红外光谱技术病虫害防治农业大数据

一种基于孪生神经网络的配电网线变关系诊断方法及系统

孪生神经网络三元组关系诊断方法编码器参数

一种大语言模型的部署方法及系统

站点导航

APP 下载