摘要
本发明公开了一种内核代码的循环展开方法、装置、设备及存储介质,涉及深度学习技术领域,包括:在神经网络模型推理过程中,分别捕获神经网络模型各层输出张量的大小;根据各层输出张量的大小确定各层分别对应的当前展开因子;根据各当前展开因子生成当前统一计算设备架构代码,并对当前统一计算设备架构代码进行编译,得到编译后统一计算设备架构代码;利用编译后统一计算设备架构代码对内核代码进行循环展开,并获取当前循环展开时间;根据当前循环展开时间对各当前展开因子进行调整,得到各层分别对应的目标展开因子;根据各目标展开因子对内核代码进行循环展开。本发明降低了开发难度和成本,提高了展开因子与硬件架构的兼容性。
技术关键词
设备架构
因子
神经网络模型
内核
动态链接库
应用程序编程接口
深度学习技术
可读存储介质
图形处理器
存储计算机程序
计算机程序产品
策略
钩子
模块
存储器
系统为您推荐了相关专利信息
热电企业
预测误差
电网负荷调度
耦合算法
管理系统
撑杆电机
扩张状态观测器
速度控制方法
预测系统
参数
洪水预测模型
序列
划分方法
长短期记忆网络
因子
模式识别模型
编码
误差函数
超参数
无线电信号干扰
海洋环境因子
捕捞努力量
概率分布预测方法
局部空间特征
长短期记忆网络