摘要
本发明提供了一种大语言模型的训练方法、装置、电子设备及介质。所述大语言模型的训练方法包括:根据目标序列长度M以及用于进行训练的当前设备的硬件支持的最大长度N对待训练的大语言模型进行初始化;读取作为训练样本的文本序列;根据所述目标序列长度M和最大长度N动态的对所述文本序列进行预处理,得到数据分块;其中,所述数据分块的长度与最大长度N相匹配,且在所述文本序列的序列长度小于长度阈值时对文本序列进行填充;根据所述数据分块对所述大语言模型进行训练,以基于训练后的大语言模型进行自然语言处理。本发明能够在有限的硬件资源下实现有效的超长文本训练,使得大规模语言模型训练更加经济高效。
技术关键词
大语言模型
序列
文本
分块
自然语言
数据
编码
电子设备
计算机
动态
训练装置
处理器通信
指令
可读存储介质
索引
存储器
参数
系统为您推荐了相关专利信息
题目推荐方法
大语言模型
知识点
学生学习状态
标签
高频特征
智能图像处理系统
多模态特征
智能图像处理方法
序列