摘要
本发明涉及计算机技术领域,公开了一种模型训练方法、装置、系统、存储介质及程序产品。该方法包括:在模型训练过程中,当检测到满足预设模型状态保存条件时,暂停训练;获取当前训练服务器对应的配对训练服务器,以及当前训练服务器中各人工智能加速器对应的在配对训练服务器中快照内存的内存地址;通过训练进程,获取各人工智能加速器对应的模型状态快照,并根据各人工智能加速器对应的内存地址,将各人工智能加速器对应的模型状态快照写入到配对训练服务器的快照内存,并继续训练。本实施例的方案,可以缩短大模型训练的花费时长,可以提升大模型的训练效率,同时可以避免本训练服务器的故障重启所导致的模型状态快照丢失。
技术关键词
人工智能加速器
服务器
快照
模型训练方法
内存
进程
模型训练系统
模型训练装置
可读存储介质
身份
计算机程序产品
处理器通信
模块
系统为您推荐了相关专利信息
脉冲幅度调制信号
一体化方法
光电探测器
掺铒光纤放大器
一体化系统
前馈神经网络
交叉注意力机制
客户端
学生
文字特征
多模态数据融合
会诊系统
图谱
多模态特征
融合特征