基于多头可微栈的推理语言模型训练方法及模型

正文

推荐专利

申请号：CN202510583998

申请日期：2025-05-07

公开号：CN120706535A

公开日期：2025-09-26

类型：发明专利

摘要

本申请提出一种基于多头可微栈的推理语言模型训练方法及模型，该方法包括：调用第i个特征提取层分别获取第一输入数据和第二输入数据，并通过第一输入数据和第二输入数据进行特征提取得到第i个特征提取层的输出语义特征；第一输入数据为第i‑1个特征提取层的输出语义特征；第二输入数据为多个存储栈中存储的多个语义特征的拼接结果；当第i个特征提取层为多个特征提取层的最后一层时，计算第i个特征提取层的输出语义特征与预设标准语义特征之间的损失值；若损失值满足预设收敛条件，将初始语言模型确定为基于多头可微栈的推理语言模型。本申请实施例能够有效降低模型训练时的显存开销、提高模型训练速度以及提高模型的建模效果。

技术关键词

语义特征分片语言模型训练方法数据标签速度

基于多头可微栈的推理语言模型训练方法及模型

站点导航

APP 下载