一种基于再注意力机制的模型训练方法及装置

AITNT
正文
推荐专利
一种基于再注意力机制的模型训练方法及装置
申请号:CN202510562334
申请日期:2025-04-30
公开号:CN120087412B
公开日期:2025-07-22
类型:发明专利
摘要
本申请公开了一种基于再注意力机制的模型训练方法及装置。该方案中,将嵌入向量序列输入至预训练语言模型的多头注意力层中提取全局语义特征,并基于全局语义特征生成全局上下文向量;由稀疏门控网络基于稀疏Softmax函数和全局上下文向量,计算多头注意力头各自对应的动态权重,并构建注意力权重向量;由多头注意力层将各注意力头输出的上下文向量与对应的注意力权重向量进行加权融合,并基于固定权重矩阵对融合上下文表示进行线性变换,得到自注意力值;通过预设损失函数依据自注意力值调节预训练语言模型的参数,得到目标预训练语言模型。本申请通过引入稀疏门控机制动态调整多头注意力头的权重,显著提升了模型预测精度。
技术关键词
预训练语言模型 Softmax函数 语义特征 自然语言文本 模型训练方法 注意力机制 序列 矩阵 特征提取模块 动态 参数调节模块 网络 模型训练装置 可读存储介质 处理单元 计算机 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号