大语言模型训练方法、装置、设备及介质

正文

推荐专利

大语言模型训练方法、装置、设备及介质

申请号：CN202411039727

申请日期：2024-07-31

公开号：CN118734975B

公开日期：2025-04-18

类型：发明专利

摘要

本发明提供了大语言模型训练方法、装置、设备及介质。该方法包括针对大语言模型确定多个候选配置，每个候选配置冻结一个或多个层的参数并且具有不同的被冻结的层和/或层数；基于相同的原始训练参数，针对每个候选配置，使用多个训练数据组中的一个训练数据组进行训练以获得训练组损失函数以及更新未冻结的层的参数，其中每个候选配置中被冻结的层保持原始训练参数并且未被冻结的层的参数允许随训练发生变化；输入另一个训练数据组训练大语言模型直至遍历多个训练数据组，基于训练组损失函数确定训练集损失函数；在遍历多个训练数据组后，使用测试数据集进行测试以获得测试集损失函数；以及基于训练集损失函数和测试集损失函数来确定目标配置。

技术关键词

医疗文本数据语言模型训练方法模型训练装置大语言模型训练集语句数据获取单元滑动窗口计算机可读代码非暂时性计算机可读存储介质计算机可读指令参数医疗场景中间层肿瘤处理器主题网格

系统为您推荐了相关专利信息

一种基于增强磁共振影像对乳腺癌的预测方法及相关设备

磁共振训练样本集动态图像标识

一种焊接用导电嘴铜管制造优化方法及系统

导电嘴参数优化模型铜管拉拔工艺偏差

一种提高实体房地产证书内容识别能力的系统及方法

表格模板深度神经网络训练特征融合网络特征提取网络证书

一种基于概率神经网络的暂态电压稳定评估方法

电压稳定评估方法遗传蚁群混合算法遗传算法历史运行数据蚁群算法

一种基于大语言模型技术的知识图谱构建方法及系统

知识图谱构建方法语义流形学习算法元学习策略实体

大语言模型训练方法、装置、设备及介质

站点导航

APP 下载