大语言模型训练、信息处理方法、装置、设备及介质

正文

推荐专利

申请号：CN202510117975

申请日期：2025-01-24

公开号：CN120046687A

公开日期：2025-05-27

类型：发明专利

摘要

本公开涉及一种大语言模型训练、信息处理方法、装置、设备及介质。其中，大语言模型训练方法包括：获取第一训练文本，基于待训练大语言模型计算第一训练文本中各个token分别对应的期望梯度值；对各个token分别对应的期望梯度值进行融合处理，得到正则化项；基于正则化项对待训练大语言模型进行无监督预训练，得到第一大语言模型；获取第二训练文本，基于第二训练文本对应的目标正则化项对第一大语言模型进行有监督指令微调，得到第二大语言模型，将第二大语言模型确定为训练完成的大语言模型，由此，能够将大语言模型的解释结果融入大语言模型的训练过程中，提高了训练完成的大语言模型的性能。

技术关键词

大语言模型信息处理方法文本语言模型训练方法无监督样本信息处理模块信息处理装置指令处理器训练装置可读存储介质语音存储器电子设备计算机

系统为您推荐了相关专利信息

一种文本引导的生成图像编辑方法

图像编辑方法文本交叉注意力机制预训练模型图像编辑技术

基于图模式对齐增强的大语言模型Cypher生成方法及系统

生成方法模式大语言模型数据代表

一种基于自适应语义理解的多轮对话意图识别方法及系统

意图识别方法多层次语义特征多轮对话语义向量空间分类器

虚拟电厂的负荷预测方法、装置、设备、介质及产品

负荷预测模型负荷预测方法数据分类元素无监督分类

基于人工智能的航运流程代码生成方法

规划知识库生成代码大语言模型代码生成方法标签

大语言模型训练、信息处理方法、装置、设备及介质

站点导航

APP 下载