跨数据中心的分布式训练方法、装置及计算机程序产品

AITNT
正文
推荐专利
跨数据中心的分布式训练方法、装置及计算机程序产品
申请号:CN202411813805
申请日期:2024-12-10
公开号:CN119759554B
公开日期:2025-11-04
类型:发明专利
摘要
本公开提供了一种跨数据中心的分布式训练方法、装置、电子设备、存储介质及计算机程序产品,涉及人工智能技术领域,具体涉及分布式训练、大模型等技术领域,可应用于分布式训练场景下。具体实现方案为:对于多个并行计算策略中的每个并行计算策略,根据并行计算策略对应的分组规模,对多个数据中心中的计算单元进行分组,得到并行计算策略对应的单元组;根据多个并行计算策略各自产生的通信数据对于通信延迟时长的敏感性,从多个并行计算策略中确定出目标并行计算策略;在对待训练模型的分布式训练过程中,控制目标并行计算策略对应的单元组,在多个数据中心之间交互目标并行计算策略产生的通信数据,并控制其他并行计算策略对应的单元组,在所属的数据中心内部交互其他并行计算策略所产生的通信数据。本公开在维持通信效率的基础上,基于多个数据中心和多种并行计算策略,提高了分布式训练过程的训练效率。
技术关键词
数据并行策略 通信链路 通信控制单元 分布式训练方法 跨数据中心 流水线 环状 规模 计算机程序产品 长距离通信 训练样本集 服务设备 处理器 点对点 人工智能技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号