摘要
本发明涉及一种大模型微调方法、电子设备、可读存储介质、计算机程序产品,属于深度学习领域。本发明包括:在训练的更新过程中,通过掩码,对选择的参数进行更新,未选择的参数冻结;在训练过程中,对损失函数添加L2范数的约束。大模型微调方法与全量微调相比,大大减少了预训练模型的训练更新成本,适用于多训练集,多参数的大规模的预训练模型微调。通过数据处理和添加L2范数的正则化约束,对预训练模型的知识进行了有效迁移,并提升了泛化能力,有效解决了过拟合的情况,提升性能。该方法并没有在添加额外的训练参数,在推理过程中不会增加任何延时。本发明极大地提升了预训练模型微调的计算效率以及微调性能。
技术关键词
微调方法
预训练模型
计算机程序产品
微调系统
电子设备
处理器
可读存储介质
数据
多参数
元素
周期
存储器
训练集
模块
系统为您推荐了相关专利信息
车灯
人机交互模块
计算机程序产品
脚本
控制模块
商品信息识别方法
文本
合格证
计算机程序指令
商品信息识别装置