摘要
本发明提出了一种基于GPU时空资源共享的深度学习训练与推理任务动态协同系统,包括:GPU资源状态感知器,用于实时监控分布式训练任务的GPU核函数调用序列与显存分配状态,动态捕捉训练任务产生的计算间隙与显存碎片,生成二维资源时空特征图谱,并基于LSTM模型预测通信同步导致的GPU计算空闲周期;核函数动态调度决策器,用于基于资源时空特征图谱,采用自适应分配策略,对在线推理任务与离线推理任务进行优先级划分与动态资源配额分配,实现训练任务与推理任务的时空资源解耦;核函数执行仲裁器,用于通过显存空间复用与计算指令仲裁机制,根据调度决策动态控制推理任务核函数的提交与阻塞。本发明显著提升了GPU资源利用率,在保障训练任务性能稳定的前提下,有效利用碎片化资源支持多类型推理任务的并行执行,实现深度学习任务集群的资源高效协同。
技术关键词
深度学习训练
协同系统
资源共享
LSTM模型
令牌
决策
历史统计数据
图谱
滑动窗口
在线
离线
批量
函数调用信息
序列预测模型
周期
动态资源分配
因子
配额
系统为您推荐了相关专利信息
泥水平衡盾构
姿态预测方法
盾构姿态
解码器
层次聚类法
配电通信网
故障检测模型
故障检测方法
特征提取器
分类器
并行预测方法
LSTM模型
通道注意力机制
卷积模块
序列
等离子体控制系统
内存泄漏检测
LSTM模型
系统运行状态
检测内存泄漏