摘要
本申请提供的模型量化方法及其推理方法、装置和存储介质,包括:对目标模型的每一处理层进行优化,在一次优化中,确定目标处理层的多个目标权重矩阵,并对各个目标权重矩阵进行量化操作,使得最终形成的量化模型能够直接使用经过量化后的权重,提高模型的推理性能和推理效率。而且,通过注意力分值对数据块分配不同的精度,使得重要的数据块可以分配到更高的精度,以生成精度分配策略,在模型推理时直接使用精度分配策略确定每一数据块的精度,如此能够减小推理过程中的硬件开销。并且,通过将量化权重和精度分配两种方法结合,在维持较小的模型精度损失的情况下使得模型推理的全过程能够稀疏加速,以提高模型的推理效率。
技术关键词
矩阵
多层感知机
注意力
精度
推理方法
计算机可读指令
策略
校准
比特数
推理装置
数据获取模块
数据处理模块
数值
处理器
误差
系统为您推荐了相关专利信息
补全方法
掩码矩阵
变量
多元时间序列数据
时间滑动窗口
机械臂末端执行器
快捷安装结构
安装盘
安装机构
插接板