摘要
本发明属于机器学习技术领域,公开了一种专业领域文本大模型的多阶段预训练方法及相关装置;其中,所述多阶段预训练方法包括:基于获取的全量数据,采用混合随机采样的方式对待预训练的文本大模型进行预设轮次的训练,获得一次训练后的文本大模型;对全量数据进行分批次采样,并计算获得各批次采样数据对应的交叉熵损失,基于各批次采样数据对应的交叉熵损失对全量数据进行难度分类,获得各个预设难度等级的预训练数据集;基于各个预设难度等级的预训练数据集,对一次训练后的文本大模型进行由易到难的分阶段预训练,获得多阶段预训练后的专业领域文本大模型。本发明技术方案训练获得的文本大模型具有更好的测试结果以及更好的模型鲁棒性。
技术关键词
预训练方法
文本
数据
预训练系统
分类阈值
专业
多阶段
增量学习方法
分阶段
非暂态计算机可读存储介质
机器学习技术
处理器
模块
存储器
鲁棒性
电子设备
程序
系统为您推荐了相关专利信息
多层神经网络模型
模型计算方法
站点
最小化误差
GNSS观测值
检测终端
图像检测方法
特征值
胶囊
生命体征数据