一种面向大语言模型的PD分离推理框架优化方法

AITNT
正文
推荐专利
一种面向大语言模型的PD分离推理框架优化方法
申请号:CN202510862413
申请日期:2025-06-25
公开号:CN120670173A
公开日期:2025-09-19
类型:发明专利
摘要
本发明涉及推理优化技术领域,尤其涉及一种面向大语言模型的PD分离推理框架优化方法,包括:S1:重构KV Cache的内存结构,将原始按模型层分配的离散存储结构调整为按块分配的连续存储结构,内存结构从[layer,k/v,block_id,num_head,head_size,block_size]变为[block_id,layer,k/v,num_head,head_size,block_size];S2:根据提示词长度划分短序列、中序列和长序列,合并所述短序列为Batch组,优先执行挤压所述短序列后处理所述长序列;S3:部署混合吞吐量节点集群,根据输入的所述提示词长度动态分配请求,将短请求分配至吞吐量的低吞吐量TP节点,将长请求分配至吞吐量的高吞吐量TP节点。本发明更适合PD分离的系统架构,提升KV cache的传输效率和GPU的计算效率,从而提升系统的吞吐,达到最大化的资源利用。
技术关键词
大语言模型 序列 内存结构 计算机可读指令 节点 框架 RDMA协议 存储结构 处理器 重构 提升系统 计算机设备 集群 管理器 数据存储 索引 存储器 逻辑 注意力 资源
系统为您推荐了相关专利信息
1
负压条件下射流反应器多尺度相空间关联维数分析方法
多尺度 分析方法 反应器 射流 非线性特征
2
基于多模态数据融合的作业智能监管方法及系统
作业智能监管方法 多模态数据融合 滑动窗口 传感节点 时钟
3
一种工业物联网中解调参考信号智能传输方法
智能传输方法 深度神经网络 数据 工业物联网 信号
4
无线网络覆盖区域投诉预测模型的建立方法
无线网络覆盖区域 基站 小区 BP神经网络预测 BP神经网络模型
5
基于港口自动驾驶混行场景的协同控制方法及系统
潜在交互 协同路径规划 动态交互数据 协同控制方法 意图类别
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号