摘要
一种面向神经网络加速器的混合精度量化系统,通过全整形类型数值计算待处理的预训练模型网络各层的敏感度指标并根据排序后的敏感度指标计算混合精度量化方案;根据混合精度量化方案得到各层缩放因子,通过限制缩放因子为2的幂,使用二进制移位运算完成对模型参数的量化;再根据量化网络模型,采用全整数类型数值进行卷积运算实现对推理过程的量化。本发明适用于大部分卷积神经网络,在保证准确度的同时大幅度降低了模型的大小以及硬件设施的资源占用和能源消耗。
技术关键词
神经网络加速器
量化系统
精度
因子
指标
参数
数值
设施
资源
基础