一种适用于异构集群的深度学习模型自动并行训练方法

AITNT
正文
推荐专利
一种适用于异构集群的深度学习模型自动并行训练方法
申请号:CN202411558728
申请日期:2024-11-04
公开号:CN119440841B
公开日期:2025-12-05
类型:发明专利
摘要
本发明公开一种适用于异构集群的深度学习模型自动并行训练方法,接受训练所需的异构集群与深度学习模型为输入;对于深度学习模型,获取其在训练系统上的执行性能信息;对于训练所需集群,获取集群的执行性能信息,并生成集群的最大同构节点集合与节点集合划分;随后遍历每种节点集合划分,对于其内部包含的所有节点集合,求解该节点集合的最大吞吐量;随后通过基于整数二次规划方法的负载均衡算法求解当前节点集合划分的最大吞吐量,从而求解出所有节点集合划分中的最优策略并输出。本发明支持在异构集群设置下求解给定深度学习模型的最优并行策略。可应用于由同构或异构设备组成的单机多卡、多机多卡等多种分布式训练环境。训练效率高,能耗少。
技术关键词
并行训练方法 节点 二次规划方法 集群 负载均衡算法 列表 并行策略 生成算法 深度优先搜索方法 深度优先搜索算法 深度学习模型训练 批量 分布式训练 计算机设备 异构设备 可读存储介质
系统为您推荐了相关专利信息
1
基于AI预测的冷链运输路径优化方法及系统
运输路径优化方法 需求预测模型 保鲜需求 时间敏感特征 冷藏设备
2
一种基于机器学习的自适应教学质量评估系统
知识点 集群 课堂教学内容 数据收集单元 教学质量评估系统
3
一种基于多邻域自适应搜索的机器人路径规划方法
栅格地图 邻域搜索策略 检测节点状态 终点 切比雪夫
4
背光模组及其电压控制方法、驱动方法、装置及液晶显示设备
发光单元 背光模组 电源管理装置 电压控制方法 微控开关
5
移动式定位终端异常分离告警系统及方法
全局风险指标 定位终端 节点特征 分布式账本 多模态生理
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号