一种基于GPU虚拟化的大模型PD分离优化方法及系统

正文

推荐专利

申请号：CN202510716849

申请日期：2025-05-30

公开号：CN120610820A

公开日期：2025-09-09

类型：发明专利

摘要

本发明公开了一种基于GPU虚拟化的大模型PD分离优化方法及系统。该方法包括步骤：S1：通过GPU虚拟化驱动器将物理GPU设备动态切割为两个虚拟GPU设备；S2：部署独立的Prefill程序和Decode程序于同一物理GPU设备上，通过所述共享显存区域实现KV Cache数据和模型参数权重的共享；S3：通过PD分离路由器将推理请求6按阶段分发至Prefill程序或Decode程序，其中Prefill程序将生成的KV键值写入共享显存，Decode程序从共享显存读取KV键值；S4：动态监测Prefill阶段和Decode阶段的请求压力，通过调整虚拟GPU设备的算力和显存分配比例实现资源再平衡，无需重启推理集群。本发明相对传统的PD分离方法，减少了一半的算力资源占用，降低了存储开销，避免了KV Cache的存储开销和网络IO开销，并具备更高的可调度性。

技术关键词

GPU虚拟化程序路由器驱动器调度器资源分配参数阶段动态键值集群物理映射技术跨节点模块处理器可读存储介质压力存储器

系统为您推荐了相关专利信息

一种多语言模型结合的主动检索增强方法与系统

大语言模型多语言模板数据检索技术答案

一种具身智能机器人的多场景切换调度方法及系统

切换调度方法场景智能机器人机器人部件识别用户意图

衣物蒸汽清洁的控制方法、装置、存储介质和电子设备

滚筒衣物图像人工智能模型蒸汽关系

闪电位置的预测方法、装置和存储介质

栅格周期速度预测模型时序邻域

一种基于跨境电商平台的用户挖掘方法及系统

挖掘方法跨境电商平台页面密度数据分类

一种基于GPU虚拟化的大模型PD分离优化方法及系统

站点导航

APP 下载