摘要
本申请实施例提供了一种大模型训练方法、推理方法及相关设备,用于减少大模型训练过程和推理过程中所需加速器硬件设备数量,并提高加速器硬件设备的利用率。本申请实施例方法包括:将原有大模型定义中包含的N个Transformer模块改为只包含L个Transformer模块,L远远小于N;创建N‑L份Transformer模块的可学习参数;通过对L个Transformer模块的循环计算,并在运行时动态替换L个Transformer模块的参数和梯度,以完成原有大模型定义中N个Transformer模块的训练任务或推理任务。
技术关键词
模块
缓存设备
硬件设备
加速器
模型训练方法
神经网络参数
定义
计算机设备
推理方法
数据传输单元
模型训练系统
推理系统
加载单元
内存
策略
算法
动态
系统为您推荐了相关专利信息
工业发动机
设备故障预测
工业设备故障
剩余使用寿命预测
管理系统
权限管理模块
异常数据分析
保障数据安全
数据分布
聚类算法
智能定位系统
定位数据分析
数据分析模型
数据分析单元
数据采集模块
甲虫诱捕器
分析预警方法
分析预警系统
图像采集终端
移动通讯模块
飞行路径规划方法
航标灯
地形特征
城市道路
控制终端