模型训练任务执行方法、图形处理器和模型训练系统

AITNT
正文
推荐专利
模型训练任务执行方法、图形处理器和模型训练系统
申请号:CN202511063118
申请日期:2025-07-31
公开号:CN120543362A
公开日期:2025-08-26
类型:发明专利
摘要
本申请涉及一种模型训练任务执行方法、图形处理器和模型训练系统,其中,该模型训练任务执行方法包括:在对当前文本段执行模型前向传播的注意力计算时,从中央处理器中依次加载各前序文本段所对应的键值对激活值进行注意力计算;同时将当前文本段所对应的键值对激活值卸载至中央处理器;在对当前文本段执行模型反向传播的注意力计算时,从中央处理器中加载当前文本段所对应的前向传播输出结果和键值对激活值,并依次加载各前序文本段所对应的注意力激活值,与当前文本段所对应的前向传播输出结果和键值对激活值进行注意力计算,得到梯度值;将梯度值卸载至中央处理器中;其能够在GPU资源受限情况下,提高大语言模型的文本训练任务的执行效率。
技术关键词
图形处理器 文本 中央处理器 注意力 键值 模型训练系统 分段 序列 大语言模型 模块 优化器 参数 受限 策略 资源
系统为您推荐了相关专利信息
1
基于深度学习的水位智能识别方法及系统
智能识别方法 生成对抗网络架构 注意力机制 智能识别系统 浮子式水位传感器
2
柑橘果实采摘定位方法、装置、设备及介质
成熟柑橘果实 柑橘果树 三维点云数据 语义分割模型 定位方法
3
基于模态层次融合的多模态知识图谱补全方法
知识图谱补全方法 实体 三元组 图像嵌入 多模态
4
基于八元数正交ViT的表情识别方法和系统
表情识别方法 识别神经网络 表情特征 多层感知器 子模块
5
基于ResNet34的遥感影像建筑物变化检测方法
Gabor特征 建筑物 分层编码器 滤波器网络 深度残差神经网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号