大语言模型膨胀预训练方法、系统、电子设备及存储介质

AITNT
正文
推荐专利
大语言模型膨胀预训练方法、系统、电子设备及存储介质
申请号:CN202410725360
申请日期:2024-06-05
公开号:CN118627616A
公开日期:2024-09-10
类型:发明专利
摘要
本申请实施例提供了一种大语言模型膨胀预训练方法、系统、电子设备及存储介质,属于人工智能技术领域。该方法通过预先训练参数较小的第一语言模型,然后根据第一语言模型中目标网络的参数集合将目标网络拓展为第一专家网络和第二专家网络,将低秩矩阵映射单元添加到第二专家网络的输出层得到第三专家网络,将第三专家网络与第一语言模型中的第一专家网络进行拼接得到第二语言模型,再通过第二文本数据集对第二语言模型进行预训练得到大语言模型。通过对第二专家网络添加低秩矩阵映射单元,从而给两个专家网络结构进行差异化,使得两个专家网络具有不同的参数方向,增加大模型的拟合和表征能力。
技术关键词
预训练方法 大语言模型 矩阵 前馈神经网络 网络结构 预训练系统 参数 电子设备 多头注意力机制 文本 处理器 人工智能技术 数据总线 存储器 拷贝 程序 模块 序列
系统为您推荐了相关专利信息
1
一种倾转双旋翼无人机自适应控制分配方法
不确定性参数 旋翼无人机 俯仰角估计值 矩阵 姿态控制器
2
一种医学图像处理方法和装置
图像处理模型 医学图像处理方法 多任务 预训练方法 深度卷积神经网络
3
用于利用针对鲁棒的少样本图像学习的多个描述性特征的系统和方法
图像编码器 文本编码器 机器学习模型 矩阵 条目
4
一种多模态口腔影像数据的融合及处理方法
多模态 节点 影像特征数据 口腔扫描仪 非局部均值滤波
5
一种混凝土预制构件三维模型构建方法及系统
三维模型构建方法 混凝土预制构件 噪声 特征值 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号