面向众核超算的存储高效的大模型推理方法

正文

推荐专利

面向众核超算的存储高效的大模型推理方法

申请号：CN202510472089

申请日期：2025-04-16

公开号：CN120409670A

公开日期：2025-08-01

类型：发明专利

摘要

本发明公开了一种面向众核超算的存储高效的大模型推理方法，涉及机器学习领域。该方法的总体架构基于对Transformer模型中Attention和FFN模块的显存优化，通过矩阵分块计算与动态显存管理实现推理阶段的存储高效性。首先进行参数分块与串行计算：在Attention模块中，将Q、K参数矩阵沿列方向竖切为多个子块，输入保持完整；串行计算每个子块与输入的乘积得到局部Q、K矩阵，并立即进行QKT分块乘法得到部分注意力分数；聚合所有子块的计算结果得到完整的注意力分数矩阵；随后利用Softmax归一化注意力分数，并与延迟计算的V分块串行相乘，拼接结果得到Attention输出；FFN模块的优化，将全连接层参数竖切为子块，输入完整数据依次与子块串行计算，每个子块的非线性变换结果实时拼接。

技术关键词

推理方法注意力分块策略参数数据依赖关系并行流水线矩阵调度器非线性模块节点动态检查点多阶段采样器单层

系统为您推荐了相关专利信息

视频多尺度隐式神经网络表示压缩方法及装置

编码特征神经网络模型上采样图像块视频多尺度

一种热网用户侧关断阀控制系统

关断阀控制系统分区蒸汽需求预测模型时间段

基于自适应对比学习的半监督图像识别方法

无标签样本监督图像识别方法感知损失函数无监督训练机器学习模型

一种基于多尺度卷积神经和双向长短期记忆神经网络的坝体渗水量预测方法

LSTM神经网络双向长短期记忆多尺度超参数数据

动态相变控制的增材超高强度钢强韧化工艺

强韧化工艺超高强度钢奥氏体组织变量

面向众核超算的存储高效的大模型推理方法

站点导航

APP 下载