摘要
本发明公开了一种基于分布式KV缓存池的大语言模型推理方法。该方法针对平台接受大量用户发送的需要大语言模型服务的请求,将用户的请求和集群中的机器进行相应的建模,然后利用相应的策略进行处理。此外,还考虑到集群中机器资源的使用情况,优先考虑资源空闲多的机器。这种方式在一定程度上减少了资源竞争所带来的干扰。与此同时,通过将众多NPU卡的内存进行抽象成一个分布式KV缓存池的方式,方便处理请求时进行弹性伸缩。通过该方法能够构建基于大语言模型的高效集群,相应的平台能够更好理解用户的需求和意图,以提供更加及时和个性化的服务。
技术关键词
推理方法
调度器
大语言模型
集群
队列调度策略
分发器
抢占式调度
负载均衡策略
结点
解析器
阶段
一台计算机
推理装置
资源预留
动态更新
网络
模块
节点
系统为您推荐了相关专利信息
视觉训练系统
大语言模型
数据采集中心
数据管理中心
矿山
端点
语音活动检测
语音交互方法
语义
数据处理方式
日志解析方法
大语言模型
解析日志
日志解析规则
日志级别