一种基于分布式KV缓存池的大语言模型推理方法

正文

推荐专利

申请号：CN202510631153

申请日期：2025-05-16

公开号：CN120654778A

公开日期：2025-09-16

类型：发明专利

摘要

本发明公开了一种基于分布式KV缓存池的大语言模型推理方法。该方法针对平台接受大量用户发送的需要大语言模型服务的请求，将用户的请求和集群中的机器进行相应的建模，然后利用相应的策略进行处理。此外，还考虑到集群中机器资源的使用情况，优先考虑资源空闲多的机器。这种方式在一定程度上减少了资源竞争所带来的干扰。与此同时，通过将众多NPU卡的内存进行抽象成一个分布式KV缓存池的方式，方便处理请求时进行弹性伸缩。通过该方法能够构建基于大语言模型的高效集群，相应的平台能够更好理解用户的需求和意图，以提供更加及时和个性化的服务。

技术关键词

推理方法调度器大语言模型集群队列调度策略分发器抢占式调度负载均衡策略结点解析器阶段一台计算机推理装置资源预留动态更新网络模块节点

系统为您推荐了相关专利信息

基于大语言模型的矿山AI视觉训练系统设计及实现方法

视觉训练系统大语言模型数据采集中心数据管理中心矿山

多媒体数据的交互处理方法及装置

多媒体视频账户虚拟对象计算机可执行指令

语音交互方法及相关装置、设备、系统和存储介质

端点语音活动检测语音交互方法语义数据处理方式

基于本地大语言模型的动态自适应日志解析方法及系统

日志解析方法大语言模型解析日志日志解析规则日志级别

图文数据集的构造方法、系统、设备、存储介质及产品

大语言模型实体间关系图文知识库构造词语

一种基于分布式KV缓存池的大语言模型推理方法

站点导航

APP 下载