一种模型训练方法以及相关设备

正文

推荐专利

一种模型训练方法以及相关设备

申请号：CN202510492694

申请日期：2025-04-18

公开号：CN120012835A

公开日期：2025-05-16

类型：发明专利

摘要

本申请实施例公开了一种模型训练方法，该方法中，可以根据第一模型中的预设注意力模块的模型参数与第二模型中的MLA模块中的模型参数的相关性，将预设注意力模块中的模型权重变换为MLA模块的初始化的模型权重，以将预设注意力模块中的知识迁移至初始化后的MLA模块中，为初始化后的第二模型提供较好的知识基础，然后对MLA模块进行微调等小规模的训练即可获得性能较好的训练后的第二模型，而无需对第二模型从零开始执行完整的全流程训练过程，大大提升对第二模型的训练效率。

技术关键词

注意力模型训练方法教师学生模型训练装置处理器可读存储介质计算机程序产品接口模块集群小规模文本指令存储器图像参数基础

一种模型训练方法以及相关设备

站点导航

APP 下载