一种基于算力网络的模型分布式训练方法和系统

正文

推荐专利

申请号：CN202411376651

申请日期：2024-09-30

公开号：CN119167093B

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了一种基于算力网络的模型分布式训练方法，包括：获取用户上传的模型信息及模型文件，获取数据集的信息，判断得到的模型信息中的模型名称是否存在于预先建立的字典中，如果不是则创建主进程，利用该主进程、并根据分布式调用服务请求中的模型名称与数据集名称分别从预先建立的模型仓库和数据集仓库中加载对应的模型与数据集；使用加载的数据集对模型进行分布式训练，以得到分布式训练后的模型，通过主进程将分布式训练后的模型保存到分布式训练结果仓库中。本发明能够解决现有分布式系统用户自己搭建的模型传播范围小的技术问题,以及对不匹配的模型与数据集进行分布式训练，造成计算资源浪费的技术问题。

技术关键词

分布式训练方法进程数据仓库子模块参数深度神经网络模型深度学习框架字典分布式训练系统周期列表训练集分布式系统样本种子

一种基于算力网络的模型分布式训练方法和系统

站点导航

APP 下载