摘要
本发明涉及推理优化技术领域,尤其涉及一种面向大语言模型的PD分离推理框架优化方法,包括:S1:重构KV Cache的内存结构,将原始按模型层分配的离散存储结构调整为按块分配的连续存储结构,内存结构从[layer,k/v,block_id,num_head,head_size,block_size]变为[block_id,layer,k/v,num_head,head_size,block_size];S2:根据提示词长度划分短序列、中序列和长序列,合并所述短序列为Batch组,优先执行挤压所述短序列后处理所述长序列;S3:部署混合吞吐量节点集群,根据输入的所述提示词长度动态分配请求,将短请求分配至吞吐量的低吞吐量TP节点,将长请求分配至吞吐量的高吞吐量TP节点。本发明更适合PD分离的系统架构,提升KV cache的传输效率和GPU的计算效率,从而提升系统的吞吐,达到最大化的资源利用。
技术关键词
大语言模型
序列
内存结构
计算机可读指令
节点
框架
RDMA协议
存储结构
处理器
重构
提升系统
计算机设备
集群
管理器
数据存储
索引
存储器
逻辑
注意力
资源
系统为您推荐了相关专利信息
作业智能监管方法
多模态数据融合
滑动窗口
传感节点
时钟
智能传输方法
深度神经网络
数据
工业物联网
信号
无线网络覆盖区域
基站
小区
BP神经网络预测
BP神经网络模型
潜在交互
协同路径规划
动态交互数据
协同控制方法
意图类别