DNN模型并行训练中细粒度资源调度方法及系统

正文

推荐专利

申请号：CN202510682349

申请日期：2025-05-26

公开号：CN120610816A

公开日期：2025-09-09

类型：发明专利

摘要

本发明涉及深度学习模型训练优化技术领域，特别涉及一种DNN模型并行训练中细粒度资源调度方法及系统，将DNN模型转化为计算图表示并结合计算设备拓扑信息构建计算图；将DNN模型训练过程的计算阶段划分与各计算阶段到计算设备的资源映射建模为阶段划分与资源映射的组合优化问题；利用启发式算法对组合优化问题进行迭代求解，通过动态调整约束条件权重并最小化计算设备开销和负载差异来优化各计算阶段的计算设备资源映射。本发明在目标函数中综合考虑计算成本、通信开销、整体负载均衡以及求解时间，实现高效的计算资源分配和任务调度的优化，有助于提高大规模深度学习模型的训练和推理效率，在深度神经网络分布式并行训练领域具有较好的应用前景。

技术关键词

加速器资源调度方法设备拓扑信息 DNN模型节点启发式算法细粒度资源调度系统阶段变量内存深度学习模型训练决策深度神经网络可读存储介质分配信息任务调度动态模块

系统为您推荐了相关专利信息

基于区块链的物联网设备可信接入方法

可信接入方法信用评估模型零知识证明区块链智能合约上下文特征

一种在预设时间误差收敛的分布式观测器设计方法及系统

观测器设计方法误差模型李雅普诺夫函数节点矩阵

一种废碱液回收处理系统及方法

空间定位系统路径追踪算法粒子群优化算法协同管理平台设备运行状态

一种基于集成化结构的低节点电磁阀

集成化结构电磁阀外壳绕线管节点铆接板

面向恶意网络攻击的去中心化限速方法和装置

集群限速方法分布式系统聚类算法异常流量

DNN模型并行训练中细粒度资源调度方法及系统

站点导航

APP 下载