摘要
本发明提供了一种大语言模型的生成方法、装置、电子设备及存储介质,该生成方法包括以下步骤:获取文本训练数据集,生成Bin文件和Idx文件;创建大语言模型,大语言模型包含有30层Transformer的Encoder‑Only架构,大语言模型用于接收词汇表和词汇表对应的多个索引值,大语言模型用于将接收到的所有索引值输入嵌入层,嵌入层基于预设的词嵌入矩阵将任一索引值i转换成词嵌入向量所有的词嵌入向量均输入到第一层Encoder‑Only架构,下一层均用于接收上一层输出的词嵌入向量,并经过多头注意力机制;基于Bin文件和Idx文件,对大语言模型进行训练。该生成方法能够生成一个大语言模型。
技术关键词
大语言模型
生成方法
词嵌入向量
多头注意力机制
掩码策略
文本
索引
矩阵
编码
电子设备
数据获取模块
生成装置
分词
处理器
存储器
关系
框架