一种专业领域文本大模型的多阶段预训练方法及相关装置

正文

推荐专利

申请号：CN202411034052

申请日期：2024-07-30

公开号：CN119067233A

公开日期：2024-12-03

类型：发明专利

摘要

本发明属于机器学习技术领域，公开了一种专业领域文本大模型的多阶段预训练方法及相关装置；其中，所述多阶段预训练方法包括：基于获取的全量数据，采用混合随机采样的方式对待预训练的文本大模型进行预设轮次的训练，获得一次训练后的文本大模型；对全量数据进行分批次采样，并计算获得各批次采样数据对应的交叉熵损失，基于各批次采样数据对应的交叉熵损失对全量数据进行难度分类，获得各个预设难度等级的预训练数据集；基于各个预设难度等级的预训练数据集，对一次训练后的文本大模型进行由易到难的分阶段预训练，获得多阶段预训练后的专业领域文本大模型。本发明技术方案训练获得的文本大模型具有更好的测试结果以及更好的模型鲁棒性。

技术关键词

预训练方法文本数据预训练系统分类阈值专业多阶段增量学习方法分阶段非暂态计算机可读存储介质机器学习技术处理器模块存储器鲁棒性电子设备程序

系统为您推荐了相关专利信息

一种星地联合的全球平均TEC模型计算方法及系统

多层神经网络模型模型计算方法站点最小化误差 GNSS观测值

一种用于消化道出血的图像检测方法及系统

检测终端图像检测方法特征值胶囊生命体征数据

一种路由访问方法、装置、电子设备及存储介质

关键字存储器加密算法密钥数据

一种适用于多平台接入的餐饮销售数据清分处理方法

数据验证节点员工异常订单查询处理技术

一种肺炎时序知识图谱的构建及表示方法

医院信息系统实体知识图谱构建关系电子病历

一种专业领域文本大模型的多阶段预训练方法及相关装置

站点导航

APP 下载