摘要
本申请提供一种大模型训练方法、推理方法、装置、设备及存储介质,涉及人工智能技术领域。大模型包括推理模块和深度预测器;推理模块包括编码器、多层Transformer模块和解码器,方法包括:将训练样本分别输入编码器和深度预测器;经过编码器、多层Transformer模块和解码器对训练样本的处理后,获得每层Transformer模块对应的解码器输出的待推理token的预测结果和模型深度;通过深度预测器基于训练样本获得的预测模型深度;基于待推理token、预测结果、模型深度和预测模型深度对大模型进行优化,获得训练后的大模型。本申请通过对包含深度预测器的大模型进行训练,可以平衡推理效果和计算资源。
技术关键词
模型训练方法
解码器
编码器
推理方法
计算机程序指令
参数
模型训练装置
输入模块
推理装置
处理器
人工智能技术
计算机程序产品
存储器
电子设备
样本
系统为您推荐了相关专利信息
历史运行数据
状态监测方法
异常数据
短路
计算机程序指令
工业机器视觉检测
线阵工业
脉冲编码器
特征向量空间
检测平台