大语言模型膨胀预训练方法、系统、电子设备及存储介质

正文

推荐专利

申请号：CN202410725360

申请日期：2024-06-05

公开号：CN118627616A

公开日期：2024-09-10

类型：发明专利

摘要

本申请实施例提供了一种大语言模型膨胀预训练方法、系统、电子设备及存储介质，属于人工智能技术领域。该方法通过预先训练参数较小的第一语言模型，然后根据第一语言模型中目标网络的参数集合将目标网络拓展为第一专家网络和第二专家网络，将低秩矩阵映射单元添加到第二专家网络的输出层得到第三专家网络，将第三专家网络与第一语言模型中的第一专家网络进行拼接得到第二语言模型，再通过第二文本数据集对第二语言模型进行预训练得到大语言模型。通过对第二专家网络添加低秩矩阵映射单元，从而给两个专家网络结构进行差异化，使得两个专家网络具有不同的参数方向，增加大模型的拟合和表征能力。

技术关键词

预训练方法大语言模型矩阵前馈神经网络网络结构预训练系统参数电子设备多头注意力机制文本处理器人工智能技术数据总线存储器拷贝程序模块序列

系统为您推荐了相关专利信息

一种倾转双旋翼无人机自适应控制分配方法

不确定性参数旋翼无人机俯仰角估计值矩阵姿态控制器

一种医学图像处理方法和装置

图像处理模型医学图像处理方法多任务预训练方法深度卷积神经网络

用于利用针对鲁棒的少样本图像学习的多个描述性特征的系统和方法

图像编码器文本编码器机器学习模型矩阵条目

一种多模态口腔影像数据的融合及处理方法

多模态节点影像特征数据口腔扫描仪非局部均值滤波

一种混凝土预制构件三维模型构建方法及系统

三维模型构建方法混凝土预制构件噪声特征值序列

大语言模型膨胀预训练方法、系统、电子设备及存储介质

站点导航

APP 下载