摘要
本发明公开了一种基于Multi‑A和Multi‑B专家杂化混合专家的大模型微调方法,通过将LoRA网络嵌入到混合专家(MoE)架构中,利用Multi‑A和Multi‑B MoE捕捉不同任务之间的差异,从而显著提升大语言模型在多任务场景下的微调效率和综合性能。本发明适用于各种大语言模型,促进大语言模型在不同领域的应用,并为进一步探索参数高效的微调方法提供新的思路。
技术关键词
微调方法
大语言模型
计算机存储介质
存储计算机程序
计算机程序产品
模块
路由器
处理器
存储器
网络
电子设备
矩阵
代表
多任务
可读存储介质
格式
综合性
芯片
摘要
指令