一种基于GPU虚拟化的大模型PD分离优化方法及系统

AITNT
正文
推荐专利
一种基于GPU虚拟化的大模型PD分离优化方法及系统
申请号:CN202510716849
申请日期:2025-05-30
公开号:CN120610820A
公开日期:2025-09-09
类型:发明专利
摘要
本发明公开了一种基于GPU虚拟化的大模型PD分离优化方法及系统。该方法包括步骤:S1:通过GPU虚拟化驱动器将物理GPU设备动态切割为两个虚拟GPU设备;S2:部署独立的Prefill程序和Decode程序于同一物理GPU设备上,通过所述共享显存区域实现KV Cache数据和模型参数权重的共享;S3:通过PD分离路由器将推理请求6按阶段分发至Prefill程序或Decode程序,其中Prefill程序将生成的KV键值写入共享显存,Decode程序从共享显存读取KV键值;S4:动态监测Prefill阶段和Decode阶段的请求压力,通过调整虚拟GPU设备的算力和显存分配比例实现资源再平衡,无需重启推理集群。本发明相对传统的PD分离方法,减少了一半的算力资源占用,降低了存储开销,避免了KV Cache的存储开销和网络IO开销,并具备更高的可调度性。
技术关键词
GPU虚拟化 程序 路由器 驱动器 调度器 资源分配参数 阶段 动态 键值 集群 物理 映射技术 跨节点 模块 处理器 可读存储介质 压力 存储器
系统为您推荐了相关专利信息
1
一种多语言模型结合的主动检索增强方法与系统
大语言模型 多语言 模板 数据检索技术 答案
2
一种具身智能机器人的多场景切换调度方法及系统
切换调度方法 场景 智能机器人 机器人部件 识别用户意图
3
衣物蒸汽清洁的控制方法、装置、存储介质和电子设备
滚筒 衣物图像 人工智能模型 蒸汽 关系
4
闪电位置的预测方法、装置和存储介质
栅格 周期 速度预测模型 时序 邻域
5
一种基于跨境电商平台的用户挖掘方法及系统
挖掘方法 跨境电商平台 页面 密度 数据分类
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号