摘要
本申请实施例提供了一种大语言模型膨胀预训练方法、系统、电子设备及存储介质,属于人工智能技术领域。该方法通过预先训练参数较小的第一语言模型,然后根据第一语言模型中目标网络的参数集合将目标网络拓展为第一专家网络和第二专家网络,将低秩矩阵映射单元添加到第二专家网络的输出层得到第三专家网络,将第三专家网络与第一语言模型中的第一专家网络进行拼接得到第二语言模型,再通过第二文本数据集对第二语言模型进行预训练得到大语言模型。通过对第二专家网络添加低秩矩阵映射单元,从而给两个专家网络结构进行差异化,使得两个专家网络具有不同的参数方向,增加大模型的拟合和表征能力。
技术关键词
预训练方法
大语言模型
矩阵
前馈神经网络
网络结构
预训练系统
参数
电子设备
多头注意力机制
文本
处理器
人工智能技术
数据总线
存储器
拷贝
程序
模块
序列
系统为您推荐了相关专利信息
不确定性参数
旋翼无人机
俯仰角估计值
矩阵
姿态控制器
图像处理模型
医学图像处理方法
多任务
预训练方法
深度卷积神经网络
多模态
节点
影像特征数据
口腔扫描仪
非局部均值滤波
三维模型构建方法
混凝土预制构件
噪声
特征值
序列