摘要
本申请公开了一种混合专家模型的微调方法、装置、设备、介质及程序产品,涉及模型微调技术领域,包括:在确定的映射关系下,将加载混合专家层与模型微调相关数据的数据加载过程,按照与下一计算过程的重叠关系,划分为阶段间加载、模型层间加载和专家间加载;结合专家流行度以及亲和性,确定阶段间加载、模型层间加载和专家间加载的加载决策,其中,专家流行度为混合专家模型中不同专家被激活的频率,亲和性为在离线阶段确定计算负载与硬件设备的亲和性;调度加载决策,在阶段间加载、模型层间加载和专家间加载,分别加载混合专家层与模型微调相关的数据。本申请降低了混合专家模型微调的显存需求以及提高了卸载策略下混合专家模型的微调效率。
技术关键词
微调方法
硬件设备
阶段
决策
数据
计算机程序产品
微调装置
关系
模型块
离线
注意力模型
队列
微调技术
卸载策略
处理器
进程
内存
可读存储介质
存储器
流水线