一种基于设备需求感知的跨GPU显存动态调度系统及方法

AITNT
正文
推荐专利
一种基于设备需求感知的跨GPU显存动态调度系统及方法
申请号:CN202511115047
申请日期:2025-08-11
公开号:CN121029392A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种基于设备需求感知的跨GPU显存动态调度系统及方法,属于计算机科学人工智能领域,适用于大语言模型的分布式推理场景。本发明包括:针对PD分离架构中显存资源利用不均衡和跨设备通信瓶颈的问题,系统在预填充实例构建显存交换区,当解码实例的显存占用临界时,将部分KV缓存迁移至交换区,并在资源允许时回迁,以充分利用预填充实例闲置的显存资源,缓解解码阶段的显存压力。系统通过GPU间直连建立的高速通信路径,实现由原CPU中转的低效KV缓存迁移过程向GPU直访模式的转化。迁移过程采用分层的异步传输策略,将通信开销隐藏在计算流水线中,降低迁移延迟,实现跨GPU显存的共享复用与高效调度。
技术关键词
动态调度系统 解码 中央控制器 计算机科学人工智能 CUDA接口 共享通道 队列 调度器 系统启动阶段 动态调度方法 跨进程 模块 资源 拷贝 高速通信 流水线 数据访问 设备通信 逻辑
系统为您推荐了相关专利信息
1
一种电子设备的文本显示方法、装置以及可读存储介质
文本生成模型 文本显示方法 电子设备 数据 应用程序编程接口
2
一种结构强度试验中疲劳裂纹自动分割与量化方法及装置
信息编码器 多尺度特征融合 解码器 注意力机制 疲劳裂纹长度
3
工件信息化载体DM码喷涂系统
工件识别装置 喷涂系统 工作状态显示装置 输送链 解码系统
4
基于全局注意力与循环神经网络的脑电解码方法及系统
循环神经网络模型 空间特征提取 原始脑电信号 解码方法 变压器模型
5
一种基于大数据的用户数据分析方法
数据分析方法 大数据 构建用户画像 注意力机制 机器学习算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号