大语言模型的训练方法、推理方法、装置及设备

正文

推荐专利

申请号：CN202510152395

申请日期：2025-02-12

公开号：CN119621941B

公开日期：2025-07-01

类型：发明专利

摘要

本申请提供一种大语言模型的训练方法、推理方法、装置及设备。涉及计算机技术领域。方法包括：获取训练文本，训练文本中包括未被标注的第一文本片段和被标注为分块文本的第二文本片段；将训练文本输入大语言模型中，通过大语言模型中的分块注意力机制模块对第二文本片段进行处理；通过大语言模型中的标准注意力机制模块对第一文本片段进行处理；基于大语言模型输出的第一文本片段的预测结果计算第一损失；基于大语言模型输出的第二文本片段的预测结果计算第二损失；根据第一损失和第二损失确定总损失；基于总损失对大语言模型的参数进行优化，获得训练好的大语言模型。本申请减少了内存读取次数，并且提高大语言模型推理的效率。

技术关键词

大语言模型注意力机制文本分块模块前馈神经网络推理方法计算机程序指令矩阵处理器参数计算机程序产品训练装置存储器批量电子设备

系统为您推荐了相关专利信息

一种基于多尺度卷积注意力的林草变化检测方法

变化检测方法预测特征变化检测模型上采样编码器

基于数据不平衡处理改进的贝叶斯网络老旧文旅建筑设施状态评价系统、方法、存储介质

建筑设施状态评价方法无序分类变量贝叶斯网络模型状态评价系统

芯片的虚拟化方法、装置及芯片

队列存储器管理单元芯片虚拟化方法通信单元

一种掩码恢复表观的高分辨率视频重配音生成方法

生成方法卷积解码器音频特征音频编码器语义特征

一种辐射源小样本个体识别系统及方法

辐射源识别系统时域特征提取频域特征提取网络模块

大语言模型的训练方法、推理方法、装置及设备

站点导航

APP 下载