摘要
本发明公开了一种基于GPU虚拟化的大模型PD分离优化方法及系统。该方法包括步骤:S1:通过GPU虚拟化驱动器将物理GPU设备动态切割为两个虚拟GPU设备;S2:部署独立的Prefill程序和Decode程序于同一物理GPU设备上,通过所述共享显存区域实现KV Cache数据和模型参数权重的共享;S3:通过PD分离路由器将推理请求6按阶段分发至Prefill程序或Decode程序,其中Prefill程序将生成的KV键值写入共享显存,Decode程序从共享显存读取KV键值;S4:动态监测Prefill阶段和Decode阶段的请求压力,通过调整虚拟GPU设备的算力和显存分配比例实现资源再平衡,无需重启推理集群。本发明相对传统的PD分离方法,减少了一半的算力资源占用,降低了存储开销,避免了KV Cache的存储开销和网络IO开销,并具备更高的可调度性。
技术关键词
GPU虚拟化
程序
路由器
驱动器
调度器
资源分配参数
阶段
动态
键值
集群
物理
映射技术
跨节点
模块
处理器
可读存储介质
压力
存储器
系统为您推荐了相关专利信息
切换调度方法
场景
智能机器人
机器人部件
识别用户意图