大语言模型的训练方法、装置、电子设备及介质

正文

推荐专利

申请号：CN202410857063

申请日期：2024-06-28

公开号：CN118821850B

公开日期：2025-03-28

类型：发明专利

摘要

本发明提供了一种大语言模型的训练方法、装置、电子设备及介质。所述大语言模型的训练方法包括：根据目标序列长度M以及用于进行训练的当前设备的硬件支持的最大长度N对待训练的大语言模型进行初始化；读取作为训练样本的文本序列；根据所述目标序列长度M和最大长度N动态的对所述文本序列进行预处理，得到数据分块；其中，所述数据分块的长度与最大长度N相匹配，且在所述文本序列的序列长度小于长度阈值时对文本序列进行填充；根据所述数据分块对所述大语言模型进行训练，以基于训练后的大语言模型进行自然语言处理。本发明能够在有限的硬件资源下实现有效的超长文本训练，使得大规模语言模型训练更加经济高效。

技术关键词

大语言模型序列文本分块自然语言数据编码电子设备计算机动态训练装置处理器通信指令可读存储介质索引存储器参数

系统为您推荐了相关专利信息

一种基于大数据分析的数字化管理方法及系统

数字化管理方法语义乘法器序列子系统

一种病原微生物基因组数据库的构建方法

群体遗传结构嵌套结构缓存替换策略基因序列

基于大语言模型的智能体及其精准题目举一反三的推荐方法

题目推荐方法大语言模型知识点学生学习状态标签

基于改进蜣螂优化算法的SD-MANET覆盖优化方法

覆盖优化方法位置更新切比雪夫算法监测点

一种云端智能图像处理系统及其应用方法

高频特征智能图像处理系统多模态特征智能图像处理方法序列

大语言模型的训练方法、装置、电子设备及介质

站点导航

APP 下载