摘要
本公开提供了一种模型训练的校正方法及相关设备,涉及人工智能技术领域,该方法包括:在大模型的进行迭代训练的过程中,在每次迭代更新时,实时采集多个网络层的网络参数的历史梯度信息;根据所述历史梯度信息,确定校正策略;根据所述大模型的网络层,调整所述校正策略的校正幅度,确定当前次校正的校正幅度;根据所述校正策略和所述当前次校正的校正幅度,对所述大模型的每个网络层的当前梯度信息进行校正,得到校正后的梯度信息。通过监测和分析迭代训练的过程中的历史梯度信息,自适应的校正梯度更新方向和幅度,减少训练后期的震荡和不稳定现象,提高训练的稳定性和收敛速度。
技术关键词
校正策略
校正方法
处理器
曲线
频率
人工智能技术
计算机程序产品
校正单元
校正装置
速率
采集单元
指令
参数
可读存储介质
网络
阶段
电子设备
存储器
系统为您推荐了相关专利信息
词嵌入向量
模型数据处理方法
会话
生成自然语言
模型数据处理系统
智能监控方法
图像分割模型
图像采集设备
拉普拉斯
工地
红外成像仪
超声波发生器
图像处理器
车架
超声波接收器
电力系统恢复方法
黑启动电源
频率响应
小水电机组
新能源机组