大语言模型的训练方法、装置和电子设备

正文

推荐专利

大语言模型的训练方法、装置和电子设备

申请号：CN202410796608

申请日期：2024-06-19

公开号：CN118690874A

公开日期：2024-09-24

类型：发明专利

摘要

本公开提出了一种大语言模型的训练方法、装置和电子设备，涉及人工智能技术领域，具体为大模型和深度学习等技术领域，包括：基于知识库中文本数据，获取预训练的第一大语言模型和预训练的知识激活网络KANs；基于所述KANs对所述第一大语言模型进行更新，得到第二大语言模型；基于文本偏好数据集，对所述第二大语言模型进行多任务训练，得到目标大语言模型，由此，本公开通过使用KANs替换大语言模型中的多层感知器网络，并通过文本偏好数据集，对大语言模型进行多任务训练，得到目标大语言模型，有效地解决了大语言模型训练过程中存在的遗忘性问题，提高了大语言模型在复杂任务中的灵活性和表达能力，提高了大语言模型的稳定性。

技术关键词

大语言模型多任务文本可执行程序代码多层感知器网络数据电子设备人工智能技术计算机程序产品处理器参数训练装置样本可读存储介质存储器标记模块

系统为您推荐了相关专利信息

照明控制方法、装置、计算机设备及存储介质

控制照明装置照明控制方法头部姿态信息对象动作识别模型

智能输入方法、设备、存储介质

字符语义语句智能输入方法 bert模型

结合双模态理解与大语言模型的伪造信息检测方法

信息检测方法大语言模型双模态文本三元组

基于一致性评估的社交媒体多模态讽刺识别方法及系统

图像嵌入文本识别方法融合特征社交

一种工程招标文件切分与聚合查询方法、系统及程序产品

分块查询主题查询方法分词注意力

大语言模型的训练方法、装置和电子设备

站点导航

APP 下载