一种大模型训练资源评估和策略推荐的方法和系统

AITNT
正文
推荐专利
一种大模型训练资源评估和策略推荐的方法和系统
申请号:CN202411574321
申请日期:2024-11-06
公开号:CN119599085A
公开日期:2025-03-11
类型:发明专利
摘要
一种大模型训练资源评估和策略推荐的方法,1)构建大模型数据库,保存不同类型和尺寸的模型状态数据;模型数据库支持扩展,用于同步更新最新的开源大模型;2)构建不同的分布式策略的计算开销评估数据库;定义显存效率为衡量每块显卡上存储冗余信息的程度的指标;定义计算效率为衡量显卡有效计算的时间即模型状态更新的时间和用于通信时间的比例;3)扫描现有算力资源,遍历策略优先级队列,选择第一命中的策略作为推荐策略;针对当前可用的计算资源,推荐合适的分布式训练策略,并给出训练推荐的超参;根据选择的大模型类型,估算其训练开销,并扫描节点计算资源,给出训练策略并自动构建训练框架的配置文件,配合训练平台实现大模型高效训练。
技术关键词
分布式策略 分布式训练 显卡 优化器 策略数据库 数据并行策略 资源 内存 Adam算法 队列 参数 状态更新 分布式算法 变量 冗余 定义 系统开销
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号