一种模型训练方法和电子设备

AITNT
正文
推荐专利
一种模型训练方法和电子设备
申请号:CN202410853974
申请日期:2024-06-28
公开号:CN120705568A
公开日期:2025-09-26
类型:发明专利
摘要
本申请实施例提供一种模型训练方法、装置和计算设备集群。方法应用于训练集群,训练集群包括多个模型训练组的第一模型训练组和第二模型训练组,第一模型训练组和第二模型训练组用于以数据并行的方式并行训练神经网络模型,方法包括:在一轮训练结束后生成第一及第二节点的检查点数据;第一训练节点将检查点数据保存到第一训练节点的内存中,以及,第二训练节点将检查点数据保存到第二训练节点的内存中;若第一训练节点在对模型进行训练过程中发生故障,则第一训练节点从第二训练节点的内存中获取检查点数据。根据本申请实施例的模型训练方法,可以减少通信资源的消耗,减少对远端存储的性能和带宽需求,显著降低整体系统的成本。
技术关键词
检查点 节点 并行训练神经网络 存储控制模块 内存 集群 模型训练方法 恢复控制模块 数据上传模块 计算机程序指令 模型训练装置 计算机程序产品 可读存储介质 存储器 处理器 电子设备 参数
系统为您推荐了相关专利信息
1
基于人工智能的语音识别实时交互系统及方法
节点 语音特征 文本特征值 交互方法 会议
2
一种固定翼无人机密集编队管理与控制方法
固定翼无人机 误差控制 分布式控制架构 速度跟踪控制器 节点
3
一种基于知识图谱的本体组织方法
实体 元素 核心 三元组 组织
4
基于空域态势感知的无人机飞行路径优化调节方法
无人机飞行路径 实时信息 优化调节方法 飞行路径规划 规划算法
5
一种各向异性材料导热系数测量装置及其操作方法
材料导热系数 主控芯片 温度传感器 热传导方程 电热丝
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号