摘要
本申请涉及一种深度学习模型推理方法、装置、计算机设备和存储介质。所述方法包括:调用与国产加速器相适配的推理框架,对深度学习模型进行编译优化、并行优化、内存层次优化和计算加速部件的深度融合,得到目标优化模型;将所述目标优化模型编译为所述国产加速器的可执行机器码;在所述国产加速器上加载所述可执行机器码,执行所述可执行机器码对待推理数据的数据推理过程,得到模型推理结果。采用本方法能够解决现有的通用推理框架难以直接适配国产加速器的问题,实现完全释放国产加速器的计算潜力,显著提升推理效率与资源利用率。
技术关键词
加速器
深度学习模型
内存
推理方法
表达式
计算机设备
指令
数据访问模式
数据存储空间
框架
推理装置
处理器
缓冲
可读存储介质
存储器
核心
模块
拷贝
逻辑