摘要
本发明公开了一种基于设备需求感知的跨GPU显存动态调度系统及方法,属于计算机科学人工智能领域,适用于大语言模型的分布式推理场景。本发明包括:针对PD分离架构中显存资源利用不均衡和跨设备通信瓶颈的问题,系统在预填充实例构建显存交换区,当解码实例的显存占用临界时,将部分KV缓存迁移至交换区,并在资源允许时回迁,以充分利用预填充实例闲置的显存资源,缓解解码阶段的显存压力。系统通过GPU间直连建立的高速通信路径,实现由原CPU中转的低效KV缓存迁移过程向GPU直访模式的转化。迁移过程采用分层的异步传输策略,将通信开销隐藏在计算流水线中,降低迁移延迟,实现跨GPU显存的共享复用与高效调度。
技术关键词
动态调度系统
解码
中央控制器
计算机科学人工智能
CUDA接口
共享通道
队列
调度器
系统启动阶段
动态调度方法
跨进程
模块
资源
拷贝
高速通信
流水线
数据访问
设备通信
逻辑
系统为您推荐了相关专利信息
文本生成模型
文本显示方法
电子设备
数据
应用程序编程接口
信息编码器
多尺度特征融合
解码器
注意力机制
疲劳裂纹长度
工件识别装置
喷涂系统
工作状态显示装置
输送链
解码系统
循环神经网络模型
空间特征提取
原始脑电信号
解码方法
变压器模型
数据分析方法
大数据
构建用户画像
注意力机制
机器学习算法