一种大语言模型微调方法、设备及介质

正文

推荐专利

一种大语言模型微调方法、设备及介质

申请号：CN202510812728

申请日期：2025-06-18

公开号：CN120317402A

公开日期：2025-07-15

类型：发明专利

摘要

本申请公开了一种大语言模型微调方法、设备及介质，属于人工智能领域，用以解决大语言模型微调灾难性遗忘的问题，方法包括：确定大语言模型的混合专家架构包括预训练FFN、多个专家、专家路由；专家包括本征层、LoRA适配器；对样本级表示进行聚类，并通过专家路由对样本级表示进行计算，得到每个专家的初始路由权重；根据样本级表示的聚类结果，对每个专家的初始路由权重进行矫正以及对聚类中心进行更新；根据每个专家的矫正路由权重，从多个专家中选择激活的目标专家；根据预训练FFN与目标专家对样本级表示进行处理，以对预训练大语言模型进行微调。能够在降低训练成本的同时，有效缓解灾难性遗忘。

技术关键词

大语言模型适配器微调方法矫正代表测试样标记计算机可执行指令聚类矩阵前馈神经网络数据样本处理器通信存储器介质动态

一种大语言模型微调方法、设备及介质

站点导航

APP 下载