基于Multi-A和Multi-B专家杂化混合专家的大模型微调方法

正文

推荐专利

申请号：CN202411646616

申请日期：2024-11-18

公开号：CN119398121B

公开日期：2025-09-16

类型：发明专利

摘要

本发明公开了一种基于Multi‑A和Multi‑B专家杂化混合专家的大模型微调方法，通过将LoRA网络嵌入到混合专家(MoE)架构中，利用Multi‑A和Multi‑B MoE捕捉不同任务之间的差异，从而显著提升大语言模型在多任务场景下的微调效率和综合性能。本发明适用于各种大语言模型，促进大语言模型在不同领域的应用，并为进一步探索参数高效的微调方法提供新的思路。

技术关键词

微调方法大语言模型计算机存储介质存储计算机程序计算机程序产品模块路由器处理器存储器网络电子设备矩阵代表多任务可读存储介质格式综合性芯片摘要指令

基于Multi-A和Multi-B专家杂化混合专家的大模型微调方法

站点导航

APP 下载