摘要
本发明涉及机器学习技术领域,具体地说,涉及基于动态资源分配与知识蒸馏的高效大模型训练优化方法。其包括如下步骤:识别学生模型的知识瓶颈层,通过计算教师和学生模型在知识瓶颈层上的注意力分布的差异得到KL散度,并将KL散度作为蒸馏损失项,然后获取训练过程中的资源利用率,将资源利用率与蒸馏损失项权重结合,构建帕累托多目标优化函数,采用近端策略优化算法训练资源分配智能体;当教师模型的某个模块对学生模型的贡献度低于阈值时,则冻结该模块并停止其前向计算。该方法确保模型在训练收敛速度、计算资源利用率和蒸馏效果之间取得最优平衡,不仅提高了训练效率,还增强了大模型在有限资源下的适应能力。
技术关键词
训练优化方法
动态资源分配
学生
蒸馏
教师
资源分配策略
生成对抗网络
贡献度评估方法
分布式训练系统
输出特征
注意力
均衡算法
瓶颈
模块
机器学习技术
生成器网络