一种基于GPU时空资源共享的深度学习训练与推理任务动态协同系统

正文

推荐专利

申请号：CN202510543868

申请日期：2025-04-28

公开号：CN120469797A

公开日期：2025-08-12

类型：发明专利

摘要

本发明提出了一种基于GPU时空资源共享的深度学习训练与推理任务动态协同系统，包括：GPU资源状态感知器，用于实时监控分布式训练任务的GPU核函数调用序列与显存分配状态，动态捕捉训练任务产生的计算间隙与显存碎片，生成二维资源时空特征图谱，并基于LSTM模型预测通信同步导致的GPU计算空闲周期；核函数动态调度决策器，用于基于资源时空特征图谱，采用自适应分配策略，对在线推理任务与离线推理任务进行优先级划分与动态资源配额分配，实现训练任务与推理任务的时空资源解耦；核函数执行仲裁器，用于通过显存空间复用与计算指令仲裁机制，根据调度决策动态控制推理任务核函数的提交与阻塞。本发明显著提升了GPU资源利用率，在保障训练任务性能稳定的前提下，有效利用碎片化资源支持多类型推理任务的并行执行，实现深度学习任务集群的资源高效协同。

技术关键词

深度学习训练协同系统资源共享 LSTM模型令牌决策历史统计数据图谱滑动窗口在线离线批量函数调用信息序列预测模型周期动态资源分配因子配额

系统为您推荐了相关专利信息

一种泥水平衡盾构姿态预测方法

泥水平衡盾构姿态预测方法盾构姿态解码器层次聚类法

具有共情机制的多模态人机交互方法

人机交互方法情感特征令牌语义向量交互内容

配电通信网故障检测方法、装置、终端设备和存储介质

配电通信网故障检测模型故障检测方法特征提取器分类器

基于D3AT-LSTM模型的时空气温并行预测方法

并行预测方法 LSTM模型通道注意力机制卷积模块序列

一种基于LSTM的等离子体控制系统资源使用预测方法

等离子体控制系统内存泄漏检测 LSTM模型系统运行状态检测内存泄漏

一种基于GPU时空资源共享的深度学习训练与推理任务动态协同系统

站点导航

APP 下载