摘要
一种大模型训练资源评估和策略推荐的方法,1)构建大模型数据库,保存不同类型和尺寸的模型状态数据;模型数据库支持扩展,用于同步更新最新的开源大模型;2)构建不同的分布式策略的计算开销评估数据库;定义显存效率为衡量每块显卡上存储冗余信息的程度的指标;定义计算效率为衡量显卡有效计算的时间即模型状态更新的时间和用于通信时间的比例;3)扫描现有算力资源,遍历策略优先级队列,选择第一命中的策略作为推荐策略;针对当前可用的计算资源,推荐合适的分布式训练策略,并给出训练推荐的超参;根据选择的大模型类型,估算其训练开销,并扫描节点计算资源,给出训练策略并自动构建训练框架的配置文件,配合训练平台实现大模型高效训练。
技术关键词
分布式策略
分布式训练
显卡
优化器
策略数据库
数据并行策略
资源
内存
Adam算法
队列
参数
状态更新
分布式算法
变量
冗余
定义
系统开销