大模型训练方法、推理方法、装置、设备及存储介质

AITNT
正文
推荐专利
大模型训练方法、推理方法、装置、设备及存储介质
申请号:CN202510355841
申请日期:2025-03-25
公开号:CN120430399A
公开日期:2025-08-05
类型:发明专利
摘要
本申请提供一种大模型训练方法、推理方法、装置、设备及存储介质,涉及人工智能技术领域。大模型包括推理模块和深度预测器;推理模块包括编码器、多层Transformer模块和解码器,方法包括:将训练样本分别输入编码器和深度预测器;经过编码器、多层Transformer模块和解码器对训练样本的处理后,获得每层Transformer模块对应的解码器输出的待推理token的预测结果和模型深度;通过深度预测器基于训练样本获得的预测模型深度;基于待推理token、预测结果、模型深度和预测模型深度对大模型进行优化,获得训练后的大模型。本申请通过对包含深度预测器的大模型进行训练,可以平衡推理效果和计算资源。
技术关键词
模型训练方法 解码器 编码器 推理方法 计算机程序指令 参数 模型训练装置 输入模块 推理装置 处理器 人工智能技术 计算机程序产品 存储器 电子设备 样本
系统为您推荐了相关专利信息
1
一种基于学习字典的局部放电信号的提取方法
学习字典 电信号 编码器 解码器 神经网络结构
2
电池自动短路反极检测设备运行状态监测方法及系统
历史运行数据 状态监测方法 异常数据 短路 计算机程序指令
3
一种基于属性学习和特征筛选的多粒度文本行人搜索方法
行人搜索方法 文本 多模态交互 编码器 噪声数据
4
一种智能制造工业机器视觉检测设备
工业机器视觉检测 线阵工业 脉冲编码器 特征向量空间 检测平台
5
基于多目相机的三维波浪场测量分析方法及系统
多目相机 点云 网络分析 李雅普诺夫指数 时序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号