大语言模型训练方法、装置、设备及介质

AITNT
正文
推荐专利
大语言模型训练方法、装置、设备及介质
申请号:CN202411039727
申请日期:2024-07-31
公开号:CN118734975B
公开日期:2025-04-18
类型:发明专利
摘要
本发明提供了大语言模型训练方法、装置、设备及介质。该方法包括针对大语言模型确定多个候选配置,每个候选配置冻结一个或多个层的参数并且具有不同的被冻结的层和/或层数;基于相同的原始训练参数,针对每个候选配置,使用多个训练数据组中的一个训练数据组进行训练以获得训练组损失函数以及更新未冻结的层的参数,其中每个候选配置中被冻结的层保持原始训练参数并且未被冻结的层的参数允许随训练发生变化;输入另一个训练数据组训练大语言模型直至遍历多个训练数据组,基于训练组损失函数确定训练集损失函数;在遍历多个训练数据组后,使用测试数据集进行测试以获得测试集损失函数;以及基于训练集损失函数和测试集损失函数来确定目标配置。
技术关键词
医疗文本数据 语言模型训练方法 模型训练装置 大语言模型 训练集 语句 数据获取单元 滑动窗口 计算机可读代码 非暂时性计算机可读存储介质 计算机可读指令 参数 医疗场景 中间层 肿瘤 处理器 主题 网格
系统为您推荐了相关专利信息
1
一种基于增强磁共振影像对乳腺癌的预测方法及相关设备
磁共振 训练样本集 动态 图像 标识
2
一种焊接用导电嘴铜管制造优化方法及系统
导电嘴 参数优化模型 铜管 拉拔工艺 偏差
3
一种提高实体房地产证书内容识别能力的系统及方法
表格模板 深度神经网络训练 特征融合网络 特征提取网络 证书
4
一种基于概率神经网络的暂态电压稳定评估方法
电压稳定评估方法 遗传蚁群混合算法 遗传算法 历史运行数据 蚁群算法
5
一种基于大语言模型技术的知识图谱构建方法及系统
知识图谱构建方法 语义 流形学习算法 元学习策略 实体
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号