大语言模型训练、信息处理方法、装置、设备及介质

AITNT
正文
推荐专利
大语言模型训练、信息处理方法、装置、设备及介质
申请号:CN202510117975
申请日期:2025-01-24
公开号:CN120046687A
公开日期:2025-05-27
类型:发明专利
摘要
本公开涉及一种大语言模型训练、信息处理方法、装置、设备及介质。其中,大语言模型训练方法包括:获取第一训练文本,基于待训练大语言模型计算第一训练文本中各个token分别对应的期望梯度值;对各个token分别对应的期望梯度值进行融合处理,得到正则化项;基于正则化项对待训练大语言模型进行无监督预训练,得到第一大语言模型;获取第二训练文本,基于第二训练文本对应的目标正则化项对第一大语言模型进行有监督指令微调,得到第二大语言模型,将第二大语言模型确定为训练完成的大语言模型,由此,能够将大语言模型的解释结果融入大语言模型的训练过程中,提高了训练完成的大语言模型的性能。
技术关键词
大语言模型 信息处理方法 文本 语言模型训练方法 无监督 样本 信息处理模块 信息处理装置 指令 处理器 训练装置 可读存储介质 语音 存储器 电子设备 计算机
系统为您推荐了相关专利信息
1
一种文本引导的生成图像编辑方法
图像编辑方法 文本 交叉注意力机制 预训练模型 图像编辑技术
2
基于图模式对齐增强的大语言模型Cypher生成方法及系统
生成方法 模式 大语言模型 数据 代表
3
一种基于自适应语义理解的多轮对话意图识别方法及系统
意图识别方法 多层次语义特征 多轮对话 语义向量空间 分类器
4
虚拟电厂的负荷预测方法、装置、设备、介质及产品
负荷预测模型 负荷预测方法 数据分类 元素 无监督分类
5
基于人工智能的航运流程代码生成方法
规划知识库 生成代码 大语言模型 代码生成方法 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号