大语言模型的训练方法、装置和电子设备

AITNT
正文
推荐专利
大语言模型的训练方法、装置和电子设备
申请号:CN202410796608
申请日期:2024-06-19
公开号:CN118690874A
公开日期:2024-09-24
类型:发明专利
摘要
本公开提出了一种大语言模型的训练方法、装置和电子设备,涉及人工智能技术领域,具体为大模型和深度学习等技术领域,包括:基于知识库中文本数据,获取预训练的第一大语言模型和预训练的知识激活网络KANs;基于所述KANs对所述第一大语言模型进行更新,得到第二大语言模型;基于文本偏好数据集,对所述第二大语言模型进行多任务训练,得到目标大语言模型,由此,本公开通过使用KANs替换大语言模型中的多层感知器网络,并通过文本偏好数据集,对大语言模型进行多任务训练,得到目标大语言模型,有效地解决了大语言模型训练过程中存在的遗忘性问题,提高了大语言模型在复杂任务中的灵活性和表达能力,提高了大语言模型的稳定性。
技术关键词
大语言模型 多任务 文本 可执行程序代码 多层感知器网络 数据 电子设备 人工智能技术 计算机程序产品 处理器 参数 训练装置 样本 可读存储介质 存储器 标记 模块
系统为您推荐了相关专利信息
1
照明控制方法、装置、计算机设备及存储介质
控制照明装置 照明控制方法 头部姿态信息 对象 动作识别模型
2
智能输入方法、设备、存储介质
字符 语义 语句 智能输入方法 bert模型
3
结合双模态理解与大语言模型的伪造信息检测方法
信息检测方法 大语言模型 双模态 文本 三元组
4
基于一致性评估的社交媒体多模态讽刺识别方法及系统
图像嵌入 文本 识别方法 融合特征 社交
5
一种工程招标文件切分与聚合查询方法、系统及程序产品
分块 查询主题 查询方法 分词 注意力
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号