摘要
本发明提供一种深度学习编译优化方法、装置、电子设备及存储介质,该方法包括:通过深度学习框架将深度神经网络表达为计算图,将计算图转换为深度学习框架与深度学习编译器之间的中间层;标记中间层中需要编译的算子,并将标记的各算子聚类成多个子图;子图包括至少一个融合算子,融合算子是由多个标记的算子融合得到的;通过深度学习编译器在线编译融合算子,生成融合算子的内核代码;在线编译包括基于微内核库将最内层循环代码转换为微内核的调用代码。本发明可以兼顾编程的灵活性和计算的高效性,提高开发效率,并改善代码生成搜索空间大的问题,缩减编译时间开销。
技术关键词
编译优化方法
代码转换
深度学习框架
瓦片
深度神经网络
中间层
序列
非暂态计算机可读存储介质
标记
指令
内核
在线
逻辑
尺寸
电子设备
格式
处理器
优化装置
嵌套
存储器