摘要
本申请提供了一种基于大规模数据的大模型分布训练方法及装置,所述方法包括:获取待训练大模型;将待训练大模型拆分为多个子模型,并分别部署到多个计算机设备上,每个子模型包含若干连续的神经网络层;获取大规模样本数据;基于大规模样本数据,连接所述计算机设备,实现待训练大模型的模型训练。本申请中,通过将大模型进行拆分,分别部署到不同计算机设备的方式,从而降低每个计算机设备的计算复杂度,大大降低模型训练的设备内存要求和性能要求。
技术关键词
计算机设备
分片
链路
加密设备
样本
浮点数
更新模型参数
模型训练模块
并行技术
数据获取模块
训练装置
存储器
处理器
可读存储介质
程序
流水线
核心
复杂度
电子设备
系统为您推荐了相关专利信息
协方差矩阵
模型构建方法
模型构建系统
参数
传感器
语音识别模型
编码向量
计算机可读指令
文本编码器
频谱特征
强度预测方法
BP神经网络
遗传算法
优化神经网络模型
应力