基于动态资源分配与知识蒸馏的高效大模型训练优化方法

正文

推荐专利

申请号：CN202510336242

申请日期：2025-03-21

公开号：CN119849594B

公开日期：2025-06-06

类型：发明专利

摘要

本发明涉及机器学习技术领域，具体地说，涉及基于动态资源分配与知识蒸馏的高效大模型训练优化方法。其包括如下步骤：识别学生模型的知识瓶颈层，通过计算教师和学生模型在知识瓶颈层上的注意力分布的差异得到KL散度，并将KL散度作为蒸馏损失项，然后获取训练过程中的资源利用率，将资源利用率与蒸馏损失项权重结合，构建帕累托多目标优化函数，采用近端策略优化算法训练资源分配智能体；当教师模型的某个模块对学生模型的贡献度低于阈值时，则冻结该模块并停止其前向计算。该方法确保模型在训练收敛速度、计算资源利用率和蒸馏效果之间取得最优平衡，不仅提高了训练效率，还增强了大模型在有限资源下的适应能力。

技术关键词

训练优化方法动态资源分配学生蒸馏教师资源分配策略生成对抗网络贡献度评估方法分布式训练系统输出特征注意力均衡算法瓶颈模块机器学习技术生成器网络

系统为您推荐了相关专利信息

一种基于代表性样本特征分布匹配的数据集蒸馏方法

样本蒸馏方法原型数据网络

一种基于金融风控的多模型集成学习方法及相关设备

风控模型集成学习模型集成学习方法教师蒸馏

基于图像识别和大语言模型的作业批改方法

答案作业批改方法知识点字段大语言模型

数字人的生成方法、装置和数字人的生成系统

生成数字人风格对象人脸语义跨模态

一种基于深度学习的域适应语义分割方法及系统

语义分割方法语义分割模型学生网络图像

基于动态资源分配与知识蒸馏的高效大模型训练优化方法

站点导航

APP 下载