摘要
本申请涉及一种面向异构集群的大模型模块级训练策略优化方法、装置及计算机设备,其中,该方法包括:获取面向异构集群的大模型模块级的计算信息和算子级的通讯信息;计算信息包括不同数据规模下的模块在不同分布式策略下和不同芯片上的计算时间信息和模块显存信息;通讯信息为不同数据规模下通讯算子的通讯时延;基于模块显存信息,确定每个流水线的初始分布式训练策略;基于计算时间信息和通讯信息,确定流水线不同阶段的计算时间;根据计算时间和承载大模型设备的显存阈值,对每个初始分布式训练策略进行优化,得到目标分布式训练策略。通过本申请,解决了面向异构集群的大模型资源利用率较低的问题。
技术关键词
面向异构集群
分布式训练
策略优化方法
流水线
模型设备
分布式策略
通讯
负载均衡模块
阶段
策略优化装置
计算机设备
规模
时延
数据
芯片
加速器
系统为您推荐了相关专利信息
推广方法
推广系统
负载均衡算法
互联网
数据处理模块
上料装置
止挡机构
流水线
雷达检测装置
干簧管传感器
卡尔曼滤波器
硬件加速器
卡尔曼滤波算法
状态控制器
时分复用技术
图像扫描设备
烟草产品
编码图像信息
设备运行监控
数据