摘要
本发明涉及人工智能与分布式计算技术领域。本发明公开了一种基于异构GPU的分布式训练系统、方法、装置、存储介质、电子设备及产品。其中系统包括:统筹模块用于获取待训练模型的模型结构,对模型结构进行分块处理得到多个模型块,将多个模型块分发至各GPU处理模块中;多个GPU处理模块同步执行对待训练模型的训练任务,统筹模块接收各GPU处理模块传输的每一模型块的模型更新参数,基于每一模型块的模型更新参数形成待训练模型的参数计算图。多种GPU类型的GPU处理模块为模型训练过程提供所需算力,支持大计算量的模型训练过程,实现基于异构GPU对AI模型的分布式训练,提高模型训练效率。
技术关键词
模型块
模型更新
分布式训练方法
分布式训练系统
主节点
异构
数据
参数
分块
分布式计算技术
计算机程序产品
生成测试脚本
电子设备
测试模块
处理器
可读存储介质
系统为您推荐了相关专利信息
钢筋混凝土结构
材料性能参数
人工神经网络
模型构建方法
非易失性计算机存储介质
模型更新
通信方法
差分隐私
服务器
模型训练模块