摘要
本申请公开了一种基于再注意力机制的模型训练方法及装置。该方案中,将嵌入向量序列输入至预训练语言模型的多头注意力层中提取全局语义特征,并基于全局语义特征生成全局上下文向量;由稀疏门控网络基于稀疏Softmax函数和全局上下文向量,计算多头注意力头各自对应的动态权重,并构建注意力权重向量;由多头注意力层将各注意力头输出的上下文向量与对应的注意力权重向量进行加权融合,并基于固定权重矩阵对融合上下文表示进行线性变换,得到自注意力值;通过预设损失函数依据自注意力值调节预训练语言模型的参数,得到目标预训练语言模型。本申请通过引入稀疏门控机制动态调整多头注意力头的权重,显著提升了模型预测精度。
技术关键词
预训练语言模型
Softmax函数
语义特征
自然语言文本
模型训练方法
注意力机制
序列
矩阵
特征提取模块
动态
参数调节模块
网络
模型训练装置
可读存储介质
处理单元
计算机
处理器