神经网络模型的分布式训练方法、设备、介质及集群

正文

推荐专利

申请号：CN202510157281

申请日期：2025-02-12

公开号：CN120087438A

公开日期：2025-06-03

类型：发明专利

摘要

本公开提供了一种神经网络模型的分布式训练方法、设备、介质及集群，涉及人工智能领域，尤其涉及芯片领域。具体实现方案为：在检测到待训练模型的模型规模大于分布式集群的处理规模时，对模型量化处理得到量化模型；将量化模型拆分为多个模型分区并配置在各流水并行组中；在进行前向计算时，通过各流水并行组之间的共同配合，生成训练误差值；在根据训练误差值对量化模型进行反向计算的过程中，通过各流水并行组根据组内独立维护的梯度缩放值，对模型权重进行更新。以并行组为粒度，每个并行组通过维护各自的梯度缩放值，并利用其更新各自模型分区中的权重，能够有效地在模型精度与计算开销之间取得平衡，提高了分布式训练的效率、精度与可靠性。

技术关键词

分区流水分布式训练方法集群神经网络模型规模人工智能处理器图形处理单元数值计算机程序产品芯片可读存储介质模块指令精度总量数据

系统为您推荐了相关专利信息

机械臂抓取大型薄板时的运动轨迹平稳控制方法及系统

平稳控制方法神经网络模型强化学习策略分布式计算架构规划

一种基于智能电表的低压串联故障电弧AI检测方法及装置

AI检测方法嵌入式开发板智能电表神经网络模型数据处理模块

基于虚拟现实技术的室内空间预设计与交互系统

虚拟现实技术交互系统生成全景室内空间设计技术家具

一种人脸蠕形螨区域的检测方法、装置、系统及存储介质

蠕形螨深度神经网络模型人脸编码器模块输出特征

一种考虑不规则数据的航迹预测方法、装置及设备

航迹预测方法静态特征神经网络模型时间预测模型节点特征

神经网络模型的分布式训练方法、设备、介质及集群

站点导航

APP 下载