摘要
本发明公开了一种结合知识蒸馏及元梯度初始化剪枝的混合压缩方法,本发明涉及神经网络模型压缩领域。该结合知识蒸馏及元梯度初始化剪枝的混合压缩方法,首先在HSD阶段,设计参数镜像初始化策略:冻结预训练教师网络参数,并采用拓扑对称的学生网络,通过自蒸馏优化增强参数平滑性及模型性能,得到性能更佳的教师模型。之后使用元梯度初始化剪枝(Prospect Pruning,ProsPr)方法对未经训练的网络进行初始化剪枝,得到稀疏化子网作为下一阶段的学生模型。在剪枝完成后的知识蒸馏阶段,提出稀疏感知温度耦合(Sparsity‑Aware Temperature Coupling mechanism,SATC)机制,通过动态调整教师模型正确类与错误类的蒸馏温度,实现知识迁移强度与剪枝率的自适应匹配,改善因剪枝率过高引起的教师模型和学生模型容量差距过大,导致知识蒸馏效果下降的问题。
技术关键词
混合压缩方法
蒸馏
教师
学生
类间区分度
模型拓扑结构
参数
机制
剪枝方法
模型剪枝
预训练模型
网络同步
动态
精度
神经网络模型
代表
阶段
镜像
策略