大语言模型参数微调方法、系统、设备、存储介质及产品

正文

推荐专利

申请号：CN202510166836

申请日期：2025-02-14

公开号：CN119669765A

公开日期：2025-03-21

类型：发明专利

摘要

本申请公开了大语言模型参数微调方法、系统、设备、存储介质及产品，涉及自然语言处理领域。所述微调方法包括获取预训练模型及其参数矩阵，并在预训练模型的自注意力层设置参数微调模块，参数微调模块包括不同任务类型的LoRA模块和一个路由器，每个LoRA模块包括通用特征矩阵和特定特征矩阵，多个LoRA模块的通用特征矩阵共享；获取微调数据集；加载并冻结预训练模型的参数矩阵，初始化参数微调模块的参数；基于微调数据集对参数微调模块的参数进行微调，得到微调后的大语言模型。本申请显著减少了MoE架构的参数，确保了模型最大限度地捕获各种任务的差异，确保了模型跨任务的泛化性。

技术关键词

微调方法通用特征预训练模型大语言模型模块路由器注意力微调系统掩码矩阵输出特征概率分布函数指令缩放参数计算机程序产品处理器数据自然语言阶段

系统为您推荐了相关专利信息

对话生成方法、装置、计算机设备、存储介质和计算机程序产品

样本自然语言理解大语言模型对话生成方法策略

一种偏移表面自适应的CAD包面方法及装置

尖锐特征包围盒树计算机辅助设计技术控制模块三角剖分算法

一种施工现场预拌混凝土浇筑的智能管理系统

预拌混凝土智能管理系统数据采集模块监测混凝土混凝土抗压强度

一种提存公证业务处理系统、方法、装置及存储介质

公证业务业务管理模块智能合约执行区块链存证协议

一种LED芯片凸台载板及其生产方法和控制系统

感光干膜蚀刻药水凸台印刷阻焊油墨药水配比

大语言模型参数微调方法、系统、设备、存储介质及产品

站点导航

APP 下载