摘要
本发明公开了一种推理引擎创建方法、产品、设备及计算机可读存储介质,涉及推理领域,为解决推理引擎不便于在设备上部署的问题,该方法包括获取初始模型的各个网络层的权重;确定每一网络层的权重变化为目标权重后对模型损失的影响参数,基于每一影响参数确定每一网络层的权重为主要权重或次要权重;按量化精度需求对主要权重进行第一量化操作得到第一权重,并获取第一量化操作对应的第一补偿参数;对主要权重对应的网络层进行算子融合操作,得到与初始模型对应的推理引擎。本发明能够在实现对模型最大程度的压缩的同时,最大程度维持初始模型的原有精度,减小对计算设备的存储空间的占用,便于在计算设备上部署,提高了推理引擎的推理准确性。
技术关键词
注意力
参数
可读存储介质
多层感知机
精度
线性
存储块
存储计算机程序
数据
计算机程序产品
算法
处理器
序列
矩阵
电子设备
指令
内存
存储器
物理
系统为您推荐了相关专利信息
工件
启发式方法
重置方法
重构
置换流水车间调度
葡萄
变量
人工神经网络模型
机器学习模型
统计学方法
多级维纳滤波
阵列天线相位中心
子空间快速求解方法
协方差矩阵
高精度抗干扰
无人机LiDAR技术
林火蔓延模拟方法
区域特征提取
强化学习框架
深度强化学习模型