大语言模型的生成方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202412000161

申请日期：2024-12-30

公开号：CN119830897B

公开日期：2025-12-02

类型：发明专利

摘要

本发明提供了一种大语言模型的生成方法、装置、电子设备及存储介质，该生成方法包括以下步骤：获取文本训练数据集，生成Bin文件和Idx文件；创建大语言模型，大语言模型包含有30层Transformer的Encoder‑Only架构，大语言模型用于接收词汇表和词汇表对应的多个索引值，大语言模型用于将接收到的所有索引值输入嵌入层，嵌入层基于预设的词嵌入矩阵将任一索引值i转换成词嵌入向量所有的词嵌入向量均输入到第一层Encoder‑Only架构，下一层均用于接收上一层输出的词嵌入向量，并经过多头注意力机制；基于Bin文件和Idx文件，对大语言模型进行训练。该生成方法能够生成一个大语言模型。

技术关键词

大语言模型生成方法词嵌入向量多头注意力机制掩码策略文本索引矩阵编码电子设备数据获取模块生成装置分词处理器存储器关系框架

大语言模型的生成方法、装置、电子设备及存储介质

站点导航

APP 下载