大模型训练方法、推理方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510355841

申请日期：2025-03-25

公开号：CN120430399A

公开日期：2025-08-05

类型：发明专利

摘要

本申请提供一种大模型训练方法、推理方法、装置、设备及存储介质，涉及人工智能技术领域。大模型包括推理模块和深度预测器；推理模块包括编码器、多层Transformer模块和解码器，方法包括：将训练样本分别输入编码器和深度预测器；经过编码器、多层Transformer模块和解码器对训练样本的处理后，获得每层Transformer模块对应的解码器输出的待推理token的预测结果和模型深度；通过深度预测器基于训练样本获得的预测模型深度；基于待推理token、预测结果、模型深度和预测模型深度对大模型进行优化，获得训练后的大模型。本申请通过对包含深度预测器的大模型进行训练，可以平衡推理效果和计算资源。

技术关键词

模型训练方法解码器编码器推理方法计算机程序指令参数模型训练装置输入模块推理装置处理器人工智能技术计算机程序产品存储器电子设备样本

系统为您推荐了相关专利信息

一种基于学习字典的局部放电信号的提取方法

学习字典电信号编码器解码器神经网络结构

电池自动短路反极检测设备运行状态监测方法及系统

历史运行数据状态监测方法异常数据短路计算机程序指令

一种基于属性学习和特征筛选的多粒度文本行人搜索方法

行人搜索方法文本多模态交互编码器噪声数据

一种智能制造工业机器视觉检测设备

工业机器视觉检测线阵工业脉冲编码器特征向量空间检测平台

基于多目相机的三维波浪场测量分析方法及系统

多目相机点云网络分析李雅普诺夫指数时序

大模型训练方法、推理方法、装置、设备及存储介质

站点导航

APP 下载