摘要
本发明公开了一种面向众核超算的存储高效的大模型推理方法,涉及机器学习领域。该方法的总体架构基于对Transformer模型中Attention和FFN模块的显存优化,通过矩阵分块计算与动态显存管理实现推理阶段的存储高效性。首先进行参数分块与串行计算:在Attention模块中,将Q、K参数矩阵沿列方向竖切为多个子块,输入保持完整;串行计算每个子块与输入的乘积得到局部Q、K矩阵,并立即进行QKT分块乘法得到部分注意力分数;聚合所有子块的计算结果得到完整的注意力分数矩阵;随后利用Softmax归一化注意力分数,并与延迟计算的V分块串行相乘,拼接结果得到Attention输出;FFN模块的优化,将全连接层参数竖切为子块,输入完整数据依次与子块串行计算,每个子块的非线性变换结果实时拼接。
技术关键词
推理方法
注意力
分块策略
参数
数据依赖关系
并行流水线
矩阵
调度器
非线性
模块
节点
动态
检查点
多阶段
采样器
单层
系统为您推荐了相关专利信息
编码特征
神经网络模型
上采样
图像块
视频多尺度
无标签样本
监督图像识别方法
感知损失函数
无监督
训练机器学习模型
LSTM神经网络
双向长短期记忆
多尺度
超参数
数据