混合专家模型的微调方法、装置、设备、介质及程序产品

正文

推荐专利

申请号：CN202510291051

申请日期：2025-03-12

公开号：CN120337983A

公开日期：2025-07-18

类型：发明专利

摘要

本申请公开了一种混合专家模型的微调方法、装置、设备、介质及程序产品，涉及模型微调技术领域，包括：在确定的映射关系下，将加载混合专家层与模型微调相关数据的数据加载过程，按照与下一计算过程的重叠关系，划分为阶段间加载、模型层间加载和专家间加载；结合专家流行度以及亲和性，确定阶段间加载、模型层间加载和专家间加载的加载决策，其中，专家流行度为混合专家模型中不同专家被激活的频率，亲和性为在离线阶段确定计算负载与硬件设备的亲和性；调度加载决策，在阶段间加载、模型层间加载和专家间加载，分别加载混合专家层与模型微调相关的数据。本申请降低了混合专家模型微调的显存需求以及提高了卸载策略下混合专家模型的微调效率。

技术关键词

微调方法硬件设备阶段决策数据计算机程序产品微调装置关系模型块离线注意力模型队列微调技术卸载策略处理器进程内存可读存储介质存储器流水线

混合专家模型的微调方法、装置、设备、介质及程序产品

站点导航

APP 下载