摘要
本申请公开了大语言模型参数微调方法、系统、设备、存储介质及产品,涉及自然语言处理领域。所述微调方法包括获取预训练模型及其参数矩阵,并在预训练模型的自注意力层设置参数微调模块,参数微调模块包括不同任务类型的LoRA模块和一个路由器,每个LoRA模块包括通用特征矩阵和特定特征矩阵,多个LoRA模块的通用特征矩阵共享;获取微调数据集;加载并冻结预训练模型的参数矩阵,初始化参数微调模块的参数;基于微调数据集对参数微调模块的参数进行微调,得到微调后的大语言模型。本申请显著减少了MoE架构的参数,确保了模型最大限度地捕获各种任务的差异,确保了模型跨任务的泛化性。
技术关键词
微调方法
通用特征
预训练模型
大语言模型
模块
路由器
注意力
微调系统
掩码矩阵
输出特征
概率分布函数
指令
缩放参数
计算机程序产品
处理器
数据
自然语言
阶段
系统为您推荐了相关专利信息
样本
自然语言理解
大语言模型
对话生成方法
策略
尖锐特征
包围盒树
计算机辅助设计技术
控制模块
三角剖分算法
预拌混凝土
智能管理系统
数据采集模块
监测混凝土
混凝土抗压强度
公证业务
业务管理模块
智能合约执行
区块链存证
协议