一种基于设备需求感知的跨GPU显存动态调度系统及方法

正文

推荐专利

申请号：CN202511115047

申请日期：2025-08-11

公开号：CN121029392A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种基于设备需求感知的跨GPU显存动态调度系统及方法，属于计算机科学人工智能领域，适用于大语言模型的分布式推理场景。本发明包括：针对PD分离架构中显存资源利用不均衡和跨设备通信瓶颈的问题，系统在预填充实例构建显存交换区，当解码实例的显存占用临界时，将部分KV缓存迁移至交换区，并在资源允许时回迁，以充分利用预填充实例闲置的显存资源，缓解解码阶段的显存压力。系统通过GPU间直连建立的高速通信路径，实现由原CPU中转的低效KV缓存迁移过程向GPU直访模式的转化。迁移过程采用分层的异步传输策略，将通信开销隐藏在计算流水线中，降低迁移延迟，实现跨GPU显存的共享复用与高效调度。

技术关键词

动态调度系统解码中央控制器计算机科学人工智能 CUDA接口共享通道队列调度器系统启动阶段动态调度方法跨进程模块资源拷贝高速通信流水线数据访问设备通信逻辑

系统为您推荐了相关专利信息

一种电子设备的文本显示方法、装置以及可读存储介质

文本生成模型文本显示方法电子设备数据应用程序编程接口

一种结构强度试验中疲劳裂纹自动分割与量化方法及装置

信息编码器多尺度特征融合解码器注意力机制疲劳裂纹长度

工件信息化载体DM码喷涂系统

工件识别装置喷涂系统工作状态显示装置输送链解码系统

基于全局注意力与循环神经网络的脑电解码方法及系统

循环神经网络模型空间特征提取原始脑电信号解码方法变压器模型

一种基于大数据的用户数据分析方法

数据分析方法大数据构建用户画像注意力机制机器学习算法

一种基于设备需求感知的跨GPU显存动态调度系统及方法

站点导航

APP 下载