一种大语言模型的部署方法及系统

AITNT
正文
推荐专利
一种大语言模型的部署方法及系统
申请号:CN202510347618
申请日期:2025-03-24
公开号:CN120315864A
公开日期:2025-07-15
类型:发明专利
摘要
本发明涉及人工智能领域,尤其涉及一种大语言模型的部署方法及系统,包括:(1)服务请求端接收至少一个服务请求信息,并存放至服务请求消息队列中;(2)响应预填充阶段计算单元请求及负载状况,分配服务请求信息;(3)完成预填充阶段的处理,得到至少一个运行结果;(4)负载均衡器根据解码阶段计算单元负载情况,决定该阶段的任务运行计算单元;(5)将预填充阶段的运行结果输入到解码阶段的任务运行计算单元中,输出结果。本发明的有益效果在于:将预填充阶段和解码阶段分别部署在高性能计算能力和大内存的机器上,均衡负载任务,实现最大化的硬件利用,减少闲置算力,降低整体延迟,提高吞吐量,增强系统的扩展性和容错性。
技术关键词
大语言模型 负载均衡器 阶段 解码 高性能计算能力 节点 负载均衡策略 配额 队列 消息 计算机 入口 内存 实体
系统为您推荐了相关专利信息
1
成长型机器人的控制方法及装置、存储介质、计算机设备
机器人 语音 文本 大语言模型 记忆
2
问答方法及装置
问答知识库 答案 客户端 问答方法 大语言模型
3
一种基于因果图的代价最小必要因故障根因定位方法、系统及计算机可读存储介质
定位方法 解码器 数据 梯度下降算法 编码器
4
一种基于农业大数据的大蒜种植全流程数据库服务系统
数据库服务系统 最佳收获时间 近红外光谱技术 病虫害防治 农业大数据
5
一种基于孪生神经网络的配电网线变关系诊断方法及系统
孪生神经网络 三元组 关系 诊断方法 编码器参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号