大语言模型的训练方法、推理方法、装置及设备

AITNT
正文
推荐专利
大语言模型的训练方法、推理方法、装置及设备
申请号:CN202510152395
申请日期:2025-02-12
公开号:CN119621941B
公开日期:2025-07-01
类型:发明专利
摘要
本申请提供一种大语言模型的训练方法、推理方法、装置及设备。涉及计算机技术领域。方法包括:获取训练文本,训练文本中包括未被标注的第一文本片段和被标注为分块文本的第二文本片段;将训练文本输入大语言模型中,通过大语言模型中的分块注意力机制模块对第二文本片段进行处理;通过大语言模型中的标准注意力机制模块对第一文本片段进行处理;基于大语言模型输出的第一文本片段的预测结果计算第一损失;基于大语言模型输出的第二文本片段的预测结果计算第二损失;根据第一损失和第二损失确定总损失;基于总损失对大语言模型的参数进行优化,获得训练好的大语言模型。本申请减少了内存读取次数,并且提高大语言模型推理的效率。
技术关键词
大语言模型 注意力机制 文本 分块 模块 前馈神经网络 推理方法 计算机程序指令 矩阵 处理器 参数 计算机程序产品 训练装置 存储器 批量 电子设备
系统为您推荐了相关专利信息
1
一种基于多尺度卷积注意力的林草变化检测方法
变化检测方法 预测特征 变化检测模型 上采样 编码器
2
基于数据不平衡处理改进的贝叶斯网络老旧文旅建筑设施状态评价系统、方法、存储介质
建筑设施 状态评价方法 无序分类变量 贝叶斯网络模型 状态评价系统
3
芯片的虚拟化方法、装置及芯片
队列 存储器管理单元 芯片 虚拟化方法 通信单元
4
一种掩码恢复表观的高分辨率视频重配音生成方法
生成方法 卷积解码器 音频特征 音频编码器 语义特征
5
一种辐射源小样本个体识别系统及方法
辐射源 识别系统 时域特征提取 频域特征提取 网络模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号