面向众核超算的存储高效的大模型推理方法

AITNT
正文
推荐专利
面向众核超算的存储高效的大模型推理方法
申请号:CN202510472089
申请日期:2025-04-16
公开号:CN120409670A
公开日期:2025-08-01
类型:发明专利
摘要
本发明公开了一种面向众核超算的存储高效的大模型推理方法,涉及机器学习领域。该方法的总体架构基于对Transformer模型中Attention和FFN模块的显存优化,通过矩阵分块计算与动态显存管理实现推理阶段的存储高效性。首先进行参数分块与串行计算:在Attention模块中,将Q、K参数矩阵沿列方向竖切为多个子块,输入保持完整;串行计算每个子块与输入的乘积得到局部Q、K矩阵,并立即进行QKT分块乘法得到部分注意力分数;聚合所有子块的计算结果得到完整的注意力分数矩阵;随后利用Softmax归一化注意力分数,并与延迟计算的V分块串行相乘,拼接结果得到Attention输出;FFN模块的优化,将全连接层参数竖切为子块,输入完整数据依次与子块串行计算,每个子块的非线性变换结果实时拼接。
技术关键词
推理方法 注意力 分块策略 参数 数据依赖关系 并行流水线 矩阵 调度器 非线性 模块 节点 动态 检查点 多阶段 采样器 单层
系统为您推荐了相关专利信息
1
视频多尺度隐式神经网络表示压缩方法及装置
编码特征 神经网络模型 上采样 图像块 视频多尺度
2
一种热网用户侧关断阀控制系统
关断阀控制系统 分区 蒸汽 需求预测模型 时间段
3
基于自适应对比学习的半监督图像识别方法
无标签样本 监督图像识别方法 感知损失函数 无监督 训练机器学习模型
4
一种基于多尺度卷积神经和双向长短期记忆神经网络的坝体渗水量预测方法
LSTM神经网络 双向长短期记忆 多尺度 超参数 数据
5
动态相变控制的增材超高强度钢强韧化工艺
强韧化工艺 超高强度钢 奥氏体 组织 变量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号