摘要
本发明公开一种基于transformer模型的GPU推理性能优化方法、系统、设备及存储介质,该性能优化方法为通用的transformer模型推理性能调优策略,适用于多种应用场景和模型类型,通过自定义算子替换和融合,实现对Attention算子、LayerNorm算子、GBR算子、GB算子等的优化,显著减少计算量或内存的使用,提升模型性能,具体的优化步骤包括迭代搜索、模式匹配、算子替换和融合,提升深度学习模型的训练速度和推理速度,且降低资源消耗和成本。
技术关键词
性能优化方法
自定义算子
模式匹配
性能优化系统
模块
通信接口
深度学习模型
存储计算机程序
存储器
处理器
数据
电子设备
脚本
内存
速度
策略
场景
芯片
平台
系统为您推荐了相关专利信息
深度强化学习
语音声学特征
交互系统
机器人
面部
车载传感器
参数校验方法
点云轨迹
ICP算法
坐标系
三维模型
数据管理方法
数据管理系统
定位器
煤炭
噪声功率谱
语音识别模型
音频
识别方法
机房环境