摘要
本公开提出了一种大语言模型的训练方法、装置和电子设备,涉及人工智能技术领域,具体为大模型和深度学习等技术领域,包括:基于知识库中文本数据,获取预训练的第一大语言模型和预训练的知识激活网络KANs;基于所述KANs对所述第一大语言模型进行更新,得到第二大语言模型;基于文本偏好数据集,对所述第二大语言模型进行多任务训练,得到目标大语言模型,由此,本公开通过使用KANs替换大语言模型中的多层感知器网络,并通过文本偏好数据集,对大语言模型进行多任务训练,得到目标大语言模型,有效地解决了大语言模型训练过程中存在的遗忘性问题,提高了大语言模型在复杂任务中的灵活性和表达能力,提高了大语言模型的稳定性。
技术关键词
大语言模型
多任务
文本
可执行程序代码
多层感知器网络
数据
电子设备
人工智能技术
计算机程序产品
处理器
参数
训练装置
样本
可读存储介质
存储器
标记
模块
系统为您推荐了相关专利信息
控制照明装置
照明控制方法
头部姿态信息
对象
动作识别模型