一种大模型训练资源评估和策略推荐的方法和系统

正文

推荐专利

申请号：CN202411574321

申请日期：2024-11-06

公开号：CN119599085A

公开日期：2025-03-11

类型：发明专利

摘要

一种大模型训练资源评估和策略推荐的方法，1)构建大模型数据库，保存不同类型和尺寸的模型状态数据；模型数据库支持扩展，用于同步更新最新的开源大模型；2)构建不同的分布式策略的计算开销评估数据库；定义显存效率为衡量每块显卡上存储冗余信息的程度的指标；定义计算效率为衡量显卡有效计算的时间即模型状态更新的时间和用于通信时间的比例；3)扫描现有算力资源，遍历策略优先级队列，选择第一命中的策略作为推荐策略；针对当前可用的计算资源，推荐合适的分布式训练策略，并给出训练推荐的超参；根据选择的大模型类型，估算其训练开销，并扫描节点计算资源，给出训练策略并自动构建训练框架的配置文件，配合训练平台实现大模型高效训练。

技术关键词

分布式策略分布式训练显卡优化器策略数据库数据并行策略资源内存 Adam算法队列参数状态更新分布式算法变量冗余定义系统开销

一种大模型训练资源评估和策略推荐的方法和系统

站点导航

APP 下载