摘要
本发明提供了大语言模型训练方法、装置、设备及介质。该方法包括针对大语言模型确定多个候选配置,每个候选配置冻结一个或多个层的参数并且具有不同的被冻结的层和/或层数;基于相同的原始训练参数,针对每个候选配置,使用多个训练数据组中的一个训练数据组进行训练以获得训练组损失函数以及更新未冻结的层的参数,其中每个候选配置中被冻结的层保持原始训练参数并且未被冻结的层的参数允许随训练发生变化;输入另一个训练数据组训练大语言模型直至遍历多个训练数据组,基于训练组损失函数确定训练集损失函数;在遍历多个训练数据组后,使用测试数据集进行测试以获得测试集损失函数;以及基于训练集损失函数和测试集损失函数来确定目标配置。
技术关键词
医疗文本数据
语言模型训练方法
模型训练装置
大语言模型
训练集
语句
数据获取单元
滑动窗口
计算机可读代码
非暂时性计算机可读存储介质
计算机可读指令
参数
医疗场景
中间层
肿瘤
处理器
主题
网格
系统为您推荐了相关专利信息
表格模板
深度神经网络训练
特征融合网络
特征提取网络
证书
电压稳定评估方法
遗传蚁群混合算法
遗传算法
历史运行数据
蚁群算法
知识图谱构建方法
语义
流形学习算法
元学习策略
实体