Transformer模型的训练方法、装置、电子设备及可读存储介质

正文

推荐专利

申请号：CN202510280316

申请日期：2025-03-11

公开号：CN119807714B

公开日期：2025-06-17

类型：发明专利

摘要

本发明提供一种Transformer模型的训练方法、装置、电子设备及可读存储介质，涉及机器学习技术领域，包括将原始Transformer模型每层中的注意力头分为自注意力头和跨注意力头，使用与原始Transformer模型结构一致的向量模型对目标领域文本进行特征提取，得到目标领域文本特征向量，在跨注意力头中引入目标领域文本特征向量进行特征融合，得到中间Transformer模型，使用目标领域文本训练中间Transformer模型，得到目标Transformer模型；能够在低计算资源场景下，高质量实现大规模预训练语言模型从源领域到目标领域的文本迁移任务，显著降低了领域迁移时对目标领域文本训练数据的需求，降低了计算资源成本，提升了大规模预训练语言模型识别不同领域文本的适应性。

技术关键词

文本特征向量注意力参数预训练语言模型非暂态计算机可读存储介质矩阵机器学习技术电子设备处理器特征提取模块计算机程序产品序列训练装置存储器场景基础数据

系统为您推荐了相关专利信息

基于特权信息和注意力机制的非合作目标行为识别方法及系统

注意力机制融合特征图像识别方法航天器

输入阻抗的测试装置、系统及方法

测试模块数模转换单元电阻单元转接线模数转换单元

老化架连接方法、装置、电子设备及介质

三维模型老化架接口服务器 MES系统

基于显示驱动芯片的色彩校准方法及系统

色度坐标显示驱动芯片色彩校准方法矩阵白点

一种多智能体一致性检测系统

一致性检测健康状态实时监测故障自愈卡尔曼滤波算法分布式共识

Transformer模型的训练方法、装置、电子设备及可读存储介质

站点导航

APP 下载