摘要
本发明提供了一种知识蒸馏方法及电子设备,可以应用于人工智能技术领域。该知识蒸馏方法包括:分别确定用于教师网络的多个第一注意力图,用于学生网络的多个第二注意力图;对基于多个第一注意力图拼接得到的第一拼接矩阵和基于多个第二注意力图拼接得到的第二拼接矩阵进行维度归一化,得到维度相同的第一注意力矩阵和第二注意力矩阵;根据第一注意力矩阵的矩阵特征和第二注意力矩阵的矩阵特征,确定用于从第一注意力图向第二注意力图进行知识蒸馏的多重蒸馏损失;在学生网络的训练过程中,根据多重蒸馏损失和学生网络的任务损失,调整学生网络的模型参数,直至用于训练学生网络的样本集的样本均被轮询,得到目标学生网络。
技术关键词
注意力
矩阵
知识蒸馏方法
学生
网络
分布特征
特征值
样本
主成分分析法
教师
电子设备
人工智能技术
传播算法
参数
标签
处理器
存储器
模式