摘要
本申请公开了一种大语言模型微调方法、设备及介质,属于人工智能领域,用以解决大语言模型微调灾难性遗忘的问题,方法包括:确定大语言模型的混合专家架构包括预训练FFN、多个专家、专家路由;专家包括本征层、LoRA适配器;对样本级表示进行聚类,并通过专家路由对样本级表示进行计算,得到每个专家的初始路由权重;根据样本级表示的聚类结果,对每个专家的初始路由权重进行矫正以及对聚类中心进行更新;根据每个专家的矫正路由权重,从多个专家中选择激活的目标专家;根据预训练FFN与目标专家对样本级表示进行处理,以对预训练大语言模型进行微调。能够在降低训练成本的同时,有效缓解灾难性遗忘。
技术关键词
大语言模型
适配器
微调方法
矫正
代表
测试样
标记
计算机可执行指令
聚类
矩阵
前馈神经网络
数据
样本
处理器通信
存储器
介质
动态