一种面向大语言模型的PD分离推理框架优化方法

正文

推荐专利

申请号：CN202510862413

申请日期：2025-06-25

公开号：CN120670173A

公开日期：2025-09-19

类型：发明专利

摘要

本发明涉及推理优化技术领域，尤其涉及一种面向大语言模型的PD分离推理框架优化方法，包括：S1：重构KV Cache的内存结构，将原始按模型层分配的离散存储结构调整为按块分配的连续存储结构，内存结构从[layer,k/v,block_id,num_head,head_size,block_size]变为[block_id,layer,k/v,num_head,head_size,block_size]；S2：根据提示词长度划分短序列、中序列和长序列，合并所述短序列为Batch组，优先执行挤压所述短序列后处理所述长序列；S3：部署混合吞吐量节点集群，根据输入的所述提示词长度动态分配请求，将短请求分配至吞吐量的低吞吐量TP节点，将长请求分配至吞吐量的高吞吐量TP节点。本发明更适合PD分离的系统架构，提升KV cache的传输效率和GPU的计算效率，从而提升系统的吞吐，达到最大化的资源利用。

技术关键词

大语言模型序列内存结构计算机可读指令节点框架 RDMA协议存储结构处理器重构提升系统计算机设备集群管理器数据存储索引存储器逻辑注意力资源

系统为您推荐了相关专利信息

负压条件下射流反应器多尺度相空间关联维数分析方法

多尺度分析方法反应器射流非线性特征

基于多模态数据融合的作业智能监管方法及系统

作业智能监管方法多模态数据融合滑动窗口传感节点时钟

一种工业物联网中解调参考信号智能传输方法

智能传输方法深度神经网络数据工业物联网信号

无线网络覆盖区域投诉预测模型的建立方法

无线网络覆盖区域基站小区 BP神经网络预测 BP神经网络模型

基于港口自动驾驶混行场景的协同控制方法及系统

潜在交互协同路径规划动态交互数据协同控制方法意图类别

一种面向大语言模型的PD分离推理框架优化方法

站点导航

APP 下载