支持模型训练和参数检查点操作并行执行的方法和装置

AITNT
正文
推荐专利
支持模型训练和参数检查点操作并行执行的方法和装置
申请号:CN202510624456
申请日期:2025-05-15
公开号:CN120540719A
公开日期:2025-08-26
类型:发明专利
摘要
本发明提供一种支持模型训练和参数检查点操作并行执行的方法和装置,包括:在深度学习网络模型训练的参数检查点操作阶段,创建一个单独的新线程,所述新线程执行加速卡检查点数据异步并行保存;在深度学习网络模型训练的参数更新阶段前,检查加速卡检查点数据异步并行保存过程是否完成,如未完成,则等待完成后再进行参数更新。本发明通过把参数检查点操作过程和网络模型训练过程并行执行,可以有效降低单次检查点的时间开销。
技术关键词
检查点 深度学习网络模型 加速卡 参数更新模块 内存 主机 数据 网络模型训练 阶段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号