一种大模型微调方法、电子设备、可读存储介质、计算机程序产品

正文

推荐专利

申请号：CN202411942761

申请日期：2024-12-27

公开号：CN119886277A

公开日期：2025-04-25

类型：发明专利

摘要

本发明涉及一种大模型微调方法、电子设备、可读存储介质、计算机程序产品，属于深度学习领域。本发明包括：在训练的更新过程中，通过掩码，对选择的参数进行更新，未选择的参数冻结；在训练过程中，对损失函数添加L2范数的约束。大模型微调方法与全量微调相比，大大减少了预训练模型的训练更新成本，适用于多训练集，多参数的大规模的预训练模型微调。通过数据处理和添加L2范数的正则化约束，对预训练模型的知识进行了有效迁移，并提升了泛化能力，有效解决了过拟合的情况，提升性能。该方法并没有在添加额外的训练参数，在推理过程中不会增加任何延时。本发明极大地提升了预训练模型微调的计算效率以及微调性能。

技术关键词

微调方法预训练模型计算机程序产品微调系统电子设备处理器可读存储介质数据多参数元素周期存储器训练集模块

系统为您推荐了相关专利信息

一种基于LoRA训练的单样本无监督域适应处理方法

图像无监督微调方法多模态网络样本

以太坊虚拟机模糊测试方法及装置

节点模糊测试方法种子快照测试模块

控制车内灯的系统、方法、存储介质及程序产品

车灯人机交互模块计算机程序产品脚本控制模块

基于智能体的机器人流程自动化工具的调度方法及装置

自动化工具机器人大语言模型决策复杂度

一种商品信息识别方法及装置、程序产品、电子设备、存储介质

商品信息识别方法文本合格证计算机程序指令商品信息识别装置

一种大模型微调方法、电子设备、可读存储介质、计算机程序产品

站点导航

APP 下载