一种提高深度算子网络模型推理求解和训练速度的方法

正文

推荐专利

申请号：CN202510018253

申请日期：2025-01-07

公开号：CN119416897B

公开日期：2025-04-29

类型：发明专利

摘要

本发明属于人工智能及高性能计算技术领域，特别涉及一种提高深度算子网络模型推理求解和训练速度的方法。本发明针对PI‑DeepONet模型进行多层次的优化，提高其推理求解速度和训练速度。本发明定制SGEMM算子，在PI‑DeepONet常用的模型尺寸范围内，SGEMM算子相较于CUDA计算平台的基础线性代数库中最好的单精度矩阵乘法可取得最高1.5倍的加速比。针对模型中使用的modified MLP的特殊结构设计融合算子，模型的端到端推理速度获得2倍以上的加速比，图形处理器计算时间最高可被缩短5.7倍。本发明使用数据并行对模型进行分布式训练，并使用通信掩盖的策略，可扩展性保持在83%‑85%。

技术关键词

图形处理器浮点数乘法单精度矩阵乘法分布式训练高性能计算技术神经网络模型训练数据内存双缓冲机制元素访存方式速度访存指令分块策略融合策略参数多层次

系统为您推荐了相关专利信息

分布式训练模型的资源配置方法、计算设备和计算系统

资源配置信息资源配置方法分布式训练训练数据量计算机可读指令

一种基于有序动量的异步分布式机器学习方法

分布式机器学习方法存储桶索引服务器节点随机梯度下降

模型训练任务的状态数据保存方法、恢复方法和设备

图形处理器节点内存数据保存方法中央处理器

一种基于联邦学习的跨物流中转场资源协同分配方法

物流联邦学习模型协同分配方法资源分配策略多源异构数据

在大模型训练场景下的NUMA调度方法、装置、设备及介质

图形处理器节点训练场景策略关系

一种提高深度算子网络模型推理求解和训练速度的方法

站点导航

APP 下载