摘要
本申请实施例提供了一种大语言模型处理系统及会话处理方法。该系统包括:部署调度器的管理节点、计算节点和存储节点,调度器连接存储节点,存储节点用于直接与计算节点的硬件加速器内存进行数据交互;调度器用于接收到会话请求,且会话请求为多轮会话请求,向存储节点发送获取指令;存储节点用于获取会话请求的KV Cache,并将其缓存至存储节点的第一内存;调度器还用于将会话请求发送至计算节点;计算节点用于获取到会话请求后,从存储节点的第一内存获取KV Cache,利用KV Cache处理会话请求,由此,能够消除了跨计算节点获取KV Cache造成的传输延迟,减少了计算节点等待时间,由此提高了硬件加速器的使用率。
技术关键词
节点
调度器
硬件加速器
内存
多轮会话
大语言模型
图像处理器
队列
指令
消息
键值
分布式系统
集群
数据
系统为您推荐了相关专利信息
工作流调度方法
细菌觅食优化算法
混合优化算法
遗传优化算法
计算机执行指令
机器人室内环境
感应模块
控制模块
深度相机
激光雷达
嵌入式微处理器
现场可编程门阵列
浮点数
样本
模块
相互作用特征
交叉注意力机制
人工智能模型预测
智能识别方法
门控循环单元