一种提高深度算子网络模型推理求解和训练速度的方法

AITNT
正文
推荐专利
一种提高深度算子网络模型推理求解和训练速度的方法
申请号:CN202510018253
申请日期:2025-01-07
公开号:CN119416897B
公开日期:2025-04-29
类型:发明专利
摘要
本发明属于人工智能及高性能计算技术领域,特别涉及一种提高深度算子网络模型推理求解和训练速度的方法。本发明针对PI‑DeepONet模型进行多层次的优化,提高其推理求解速度和训练速度。本发明定制SGEMM算子,在PI‑DeepONet常用的模型尺寸范围内,SGEMM算子相较于CUDA计算平台的基础线性代数库中最好的单精度矩阵乘法可取得最高1.5倍的加速比。针对模型中使用的modified MLP的特殊结构设计融合算子,模型的端到端推理速度获得2倍以上的加速比,图形处理器计算时间最高可被缩短5.7倍。本发明使用数据并行对模型进行分布式训练,并使用通信掩盖的策略,可扩展性保持在83%‑85%。
技术关键词
图形处理器 浮点数乘法 单精度矩阵乘法 分布式训练 高性能计算技术 神经网络模型训练 数据 内存 双缓冲机制 元素 访存方式 速度 访存指令 分块策略 融合策略 参数 多层次
系统为您推荐了相关专利信息
1
分布式训练模型的资源配置方法、计算设备和计算系统
资源配置信息 资源配置方法 分布式训练 训练数据量 计算机可读指令
2
一种基于有序动量的异步分布式机器学习方法
分布式机器学习方法 存储桶 索引 服务器节点 随机梯度下降
3
模型训练任务的状态数据保存方法、恢复方法和设备
图形处理器 节点 内存 数据保存方法 中央处理器
4
一种基于联邦学习的跨物流中转场资源协同分配方法
物流 联邦学习模型 协同分配方法 资源分配策略 多源异构数据
5
在大模型训练场景下的NUMA调度方法、装置、设备及介质
图形处理器 节点 训练场景 策略 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号