摘要
本发明涉及人工智能领域,尤其涉及一种大语言模型的部署方法及系统,包括:(1)服务请求端接收至少一个服务请求信息,并存放至服务请求消息队列中;(2)响应预填充阶段计算单元请求及负载状况,分配服务请求信息;(3)完成预填充阶段的处理,得到至少一个运行结果;(4)负载均衡器根据解码阶段计算单元负载情况,决定该阶段的任务运行计算单元;(5)将预填充阶段的运行结果输入到解码阶段的任务运行计算单元中,输出结果。本发明的有益效果在于:将预填充阶段和解码阶段分别部署在高性能计算能力和大内存的机器上,均衡负载任务,实现最大化的硬件利用,减少闲置算力,降低整体延迟,提高吞吐量,增强系统的扩展性和容错性。
技术关键词
大语言模型
负载均衡器
阶段
解码
高性能计算能力
节点
负载均衡策略
配额
队列
消息
计算机
入口
内存
实体
系统为您推荐了相关专利信息
数据库服务系统
最佳收获时间
近红外光谱技术
病虫害防治
农业大数据