模型训练任务执行方法、图形处理器和模型训练系统

正文

推荐专利

申请号：CN202511063118

申请日期：2025-07-31

公开号：CN120543362A

公开日期：2025-08-26

类型：发明专利

摘要

本申请涉及一种模型训练任务执行方法、图形处理器和模型训练系统，其中，该模型训练任务执行方法包括：在对当前文本段执行模型前向传播的注意力计算时，从中央处理器中依次加载各前序文本段所对应的键值对激活值进行注意力计算；同时将当前文本段所对应的键值对激活值卸载至中央处理器；在对当前文本段执行模型反向传播的注意力计算时，从中央处理器中加载当前文本段所对应的前向传播输出结果和键值对激活值，并依次加载各前序文本段所对应的注意力激活值，与当前文本段所对应的前向传播输出结果和键值对激活值进行注意力计算，得到梯度值；将梯度值卸载至中央处理器中；其能够在GPU资源受限情况下，提高大语言模型的文本训练任务的执行效率。

技术关键词

图形处理器文本中央处理器注意力键值模型训练系统分段序列大语言模型模块优化器参数受限策略资源

系统为您推荐了相关专利信息

基于深度学习的水位智能识别方法及系统

智能识别方法生成对抗网络架构注意力机制智能识别系统浮子式水位传感器

柑橘果实采摘定位方法、装置、设备及介质

成熟柑橘果实柑橘果树三维点云数据语义分割模型定位方法

基于模态层次融合的多模态知识图谱补全方法

知识图谱补全方法实体三元组图像嵌入多模态

基于八元数正交ViT的表情识别方法和系统

表情识别方法识别神经网络表情特征多层感知器子模块

基于ResNet34的遥感影像建筑物变化检测方法

Gabor特征建筑物分层编码器滤波器网络深度残差神经网络

模型训练任务执行方法、图形处理器和模型训练系统

站点导航

APP 下载