摘要
本发明提供一种Transformer模型的训练方法、装置、电子设备及可读存储介质,涉及机器学习技术领域,包括将原始Transformer模型每层中的注意力头分为自注意力头和跨注意力头,使用与原始Transformer模型结构一致的向量模型对目标领域文本进行特征提取,得到目标领域文本特征向量,在跨注意力头中引入目标领域文本特征向量进行特征融合,得到中间Transformer模型,使用目标领域文本训练中间Transformer模型,得到目标Transformer模型;能够在低计算资源场景下,高质量实现大规模预训练语言模型从源领域到目标领域的文本迁移任务,显著降低了领域迁移时对目标领域文本训练数据的需求,降低了计算资源成本,提升了大规模预训练语言模型识别不同领域文本的适应性。
技术关键词
文本特征向量
注意力参数
预训练语言模型
非暂态计算机可读存储介质
矩阵
机器学习技术
电子设备
处理器
特征提取模块
计算机程序产品
序列
训练装置
存储器
场景
基础
数据
系统为您推荐了相关专利信息
测试模块
数模转换单元
电阻单元
转接线
模数转换单元
一致性检测
健康状态实时监测
故障自愈
卡尔曼滤波算法
分布式共识