摘要
本申请提供一种大语言模型的训练方法、推理方法、装置及设备。涉及计算机技术领域。方法包括:获取训练文本,训练文本中包括未被标注的第一文本片段和被标注为分块文本的第二文本片段;将训练文本输入大语言模型中,通过大语言模型中的分块注意力机制模块对第二文本片段进行处理;通过大语言模型中的标准注意力机制模块对第一文本片段进行处理;基于大语言模型输出的第一文本片段的预测结果计算第一损失;基于大语言模型输出的第二文本片段的预测结果计算第二损失;根据第一损失和第二损失确定总损失;基于总损失对大语言模型的参数进行优化,获得训练好的大语言模型。本申请减少了内存读取次数,并且提高大语言模型推理的效率。
技术关键词
大语言模型
注意力机制
文本
分块
模块
前馈神经网络
推理方法
计算机程序指令
矩阵
处理器
参数
计算机程序产品
训练装置
存储器
批量
电子设备
系统为您推荐了相关专利信息
变化检测方法
预测特征
变化检测模型
上采样
编码器
建筑设施
状态评价方法
无序分类变量
贝叶斯网络模型
状态评价系统
生成方法
卷积解码器
音频特征
音频编码器
语义特征
辐射源
识别系统
时域特征提取
频域特征提取
网络模块