摘要
本申请涉及一种模型训练任务执行方法、图形处理器和模型训练系统,其中,该模型训练任务执行方法包括:在对当前文本段执行模型前向传播的注意力计算时,从中央处理器中依次加载各前序文本段所对应的键值对激活值进行注意力计算;同时将当前文本段所对应的键值对激活值卸载至中央处理器;在对当前文本段执行模型反向传播的注意力计算时,从中央处理器中加载当前文本段所对应的前向传播输出结果和键值对激活值,并依次加载各前序文本段所对应的注意力激活值,与当前文本段所对应的前向传播输出结果和键值对激活值进行注意力计算,得到梯度值;将梯度值卸载至中央处理器中;其能够在GPU资源受限情况下,提高大语言模型的文本训练任务的执行效率。
技术关键词
图形处理器
文本
中央处理器
注意力
键值
模型训练系统
分段
序列
大语言模型
模块
优化器
参数
受限
策略
资源
系统为您推荐了相关专利信息
智能识别方法
生成对抗网络架构
注意力机制
智能识别系统
浮子式水位传感器
成熟柑橘果实
柑橘果树
三维点云数据
语义分割模型
定位方法
表情识别方法
识别神经网络
表情特征
多层感知器
子模块
Gabor特征
建筑物
分层编码器
滤波器网络
深度残差神经网络