一种专业领域文本大模型的多阶段预训练方法及相关装置

AITNT
正文
推荐专利
一种专业领域文本大模型的多阶段预训练方法及相关装置
申请号:CN202411034052
申请日期:2024-07-30
公开号:CN119067233A
公开日期:2024-12-03
类型:发明专利
摘要
本发明属于机器学习技术领域,公开了一种专业领域文本大模型的多阶段预训练方法及相关装置;其中,所述多阶段预训练方法包括:基于获取的全量数据,采用混合随机采样的方式对待预训练的文本大模型进行预设轮次的训练,获得一次训练后的文本大模型;对全量数据进行分批次采样,并计算获得各批次采样数据对应的交叉熵损失,基于各批次采样数据对应的交叉熵损失对全量数据进行难度分类,获得各个预设难度等级的预训练数据集;基于各个预设难度等级的预训练数据集,对一次训练后的文本大模型进行由易到难的分阶段预训练,获得多阶段预训练后的专业领域文本大模型。本发明技术方案训练获得的文本大模型具有更好的测试结果以及更好的模型鲁棒性。
技术关键词
预训练方法 文本 数据 预训练系统 分类阈值 专业 多阶段 增量学习方法 分阶段 非暂态计算机可读存储介质 机器学习技术 处理器 模块 存储器 鲁棒性 电子设备 程序
系统为您推荐了相关专利信息
1
一种星地联合的全球平均TEC模型计算方法及系统
多层神经网络模型 模型计算方法 站点 最小化误差 GNSS观测值
2
一种用于消化道出血的图像检测方法及系统
检测终端 图像检测方法 特征值 胶囊 生命体征数据
3
一种路由访问方法、装置、电子设备及存储介质
关键字 存储器 加密算法 密钥 数据
4
一种适用于多平台接入的餐饮销售数据清分处理方法
数据验证 节点 员工 异常订单 查询处理技术
5
一种肺炎时序知识图谱的构建及表示方法
医院信息系统 实体 知识图谱构建 关系 电子病历
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号