一种模型训练方法及装置、电子设备、存储介质和计算机程序产品

AITNT
正文
推荐专利
一种模型训练方法及装置、电子设备、存储介质和计算机程序产品
申请号:CN202510897567
申请日期:2025-06-30
公开号:CN120806026A
公开日期:2025-10-17
类型:发明专利
摘要
本公开涉及一种模型训练方法及装置、电子设备、存储介质和计算机程序产品,所述方法包括:确定目标模型中的检查点模块;在前向传播阶段,对检查点模块执行前向计算,以及在显存中仅保存检查点模块执行前向计算过程中的目标参数;在反向传播阶段,若检查点模块中包括的最后一层为Flash Attention层,跳过Flash Attention层的前向重计算,以及根据预设Flash Attention反向算法,确定Flash Attention层的梯度,并对检查点模块中其它各网络层执行前向重计算确定对应的梯度。根据本公开实施例能够节省Flash Attention层前向重计算的冗余计算开销,有效提高训练效率。
技术关键词
检查点 模型训练方法 模块 计算机程序产品 阶段 参数 模型训练装置 线性 算法 电子设备 处理器 可读存储介质 存储器 机制 冗余
系统为您推荐了相关专利信息
1
一种用于溶洞水下探测及沉积物采集的机器人及使用方法
机器人主体 电机单元 控制单元 角度传感单元 电信号
2
一种基于深度学习模型的实时视频插帧方法、装置及产品
插值模型 插帧方法 深度学习模型 实时视频 运动
3
智能化用户数据加密保护方法及系统
数据加密保护方法 Lorenz系统 椭圆曲线加密算法 数据加密保护系统 序列
4
一种产品推荐方法、装置、设备及存储介质
账户 产品交互 序列 产品推荐方法 神经网络训练
5
一种列车通讯网络的健康管理系统、设备及列车
列车通讯网络 健康管理系统 管理算法 监控模块 无线收发装置
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号