摘要
一种基于自适应并行共优化的大模型异构集群调度系统及方法,包括:基于执行流建模的性能分析器、集群弹性抢占式任务调度器以及任务并行执行引擎,其中:集群弹性抢占式任务调度器根据任务队列动态改变任务的计算资源,得到不同集群任务负载下近似最优的任务资源分配;性能分析器根据来自集群弹性抢占式任务调度器的模型并行块和来自异构GPU集群的硬件信息,进行单设备上的并行块算子延迟测量,估计得到每一个并行块所定义的子空间内最优并行策略的迭代时间;任务并行执行引擎接收调度后的并行块进行基于剪枝后搜索空间下的并行搜索、生成任务及其最优并行策略后输出至异构GPU集群。本发明保证了多个大模型训练任务的高效性能分析,集群级别的吞吐性能和资源利用率提高以及任务级别的任务完成时间减少。
技术关键词
集群调度系统
并行策略
性能分析器
任务调度器
异构
流水线
资源分配
队列
通信量
集群调度方法
多任务
阶段
启发式算法
动态
定义
决策
系统为您推荐了相关专利信息
智能决策方法
仿生机器人
D5000系统
ModbusTCP协议
神经网络架构
碳足迹核算
信息可视化系统
产品碳足迹
文本
编码向量
物理设备
工控系统
工业控制协议
设备状态数据
靶标