一种基于显存状态感知的AI模型可靠性训练方法及装置

AITNT
正文
推荐专利
一种基于显存状态感知的AI模型可靠性训练方法及装置
申请号:CN202510885383
申请日期:2025-06-30
公开号:CN120806062A
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了一种基于显存状态感知的AI模型可靠性训练方法及装置,该方法首先在每轮训练算子执行前,通过当前训练步数和保存频率判断当前训练轮次是否保存。其次若触发保存操作,分析当前训练的AI模型的网络结构,计算可与训练前反向进行并行传输的检查点大小,并生成切分策略。然后基于当前训练数据生成的切分策略对检查点进行切分操作,完成切分后将部分检查点暂存到空余显存中,在暂存时使用显存复用技术暂存检查点。最后暂存执行完成后,通过多流并行执行异步拷贝操作,并更新参数,完成训练。本发明减少大模型训练时的暂停时间和检查点保存引入的开销,减少端到端训练时间,并实现了保存性能的显著提升。
技术关键词
检查点 拷贝 复用技术 策略 参数 网络结构 通信带宽 暂存模块 标识符 频率 训练装置 传输模块 指针 数据 稳态 内存 列表 算法
系统为您推荐了相关专利信息
1
基于图像数据融合的巡检系统的故障预测方法和装置
故障预测方法 神经网络模型 巡检系统 数据 可见光摄像机
2
一种高维科创数据的降维可视化方法、装置及介质
可视化方法 降维算法 可视化工具 三维数据可视化 非线性降维方法
3
一种多参数能耗模拟分析方法、系统、设备及介质
模拟分析方法 模拟模型 多参数 校正 建筑能耗预测技术
4
一种基于强化学习和自适应学习的孤独症智能化干预系统
知识点 资源特征 注意力 构建知识图谱 界面特征
5
视频生成方法、视频生成模型的训练方法以及系统
视频生成模型 运动特征 特征提取网络 图像 视频生成方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号