一种大语言模型微调方法、设备及介质

AITNT
正文
推荐专利
一种大语言模型微调方法、设备及介质
申请号:CN202510812728
申请日期:2025-06-18
公开号:CN120317402A
公开日期:2025-07-15
类型:发明专利
摘要
本申请公开了一种大语言模型微调方法、设备及介质,属于人工智能领域,用以解决大语言模型微调灾难性遗忘的问题,方法包括:确定大语言模型的混合专家架构包括预训练FFN、多个专家、专家路由;专家包括本征层、LoRA适配器;对样本级表示进行聚类,并通过专家路由对样本级表示进行计算,得到每个专家的初始路由权重;根据样本级表示的聚类结果,对每个专家的初始路由权重进行矫正以及对聚类中心进行更新;根据每个专家的矫正路由权重,从多个专家中选择激活的目标专家;根据预训练FFN与目标专家对样本级表示进行处理,以对预训练大语言模型进行微调。能够在降低训练成本的同时,有效缓解灾难性遗忘。
技术关键词
大语言模型 适配器 微调方法 矫正 代表 测试样 标记 计算机可执行指令 聚类 矩阵 前馈神经网络 数据 样本 处理器通信 存储器 介质 动态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号