一种基于再注意力机制的模型训练方法及装置

正文

推荐专利

申请号：CN202510562334

申请日期：2025-04-30

公开号：CN120087412B

公开日期：2025-07-22

类型：发明专利

摘要

本申请公开了一种基于再注意力机制的模型训练方法及装置。该方案中，将嵌入向量序列输入至预训练语言模型的多头注意力层中提取全局语义特征，并基于全局语义特征生成全局上下文向量；由稀疏门控网络基于稀疏Softmax函数和全局上下文向量，计算多头注意力头各自对应的动态权重，并构建注意力权重向量；由多头注意力层将各注意力头输出的上下文向量与对应的注意力权重向量进行加权融合，并基于固定权重矩阵对融合上下文表示进行线性变换，得到自注意力值；通过预设损失函数依据自注意力值调节预训练语言模型的参数，得到目标预训练语言模型。本申请通过引入稀疏门控机制动态调整多头注意力头的权重，显著提升了模型预测精度。

技术关键词

预训练语言模型 Softmax函数语义特征自然语言文本模型训练方法注意力机制序列矩阵特征提取模块动态参数调节模块网络模型训练装置可读存储介质处理单元计算机处理器

一种基于再注意力机制的模型训练方法及装置

站点导航

APP 下载