摘要
本申请公开了一种知识蒸馏方法、电子设备及计算机可读存储介质,涉及人工智能技术领域,包括通过基于学生网络的初始网络结构中注意力头的数量对教师网络的注意力图矩阵进行分组,能够将教师网络高维注意力空间划分为与学生网络同维度的子空间,通过对组内的注意力图矩阵进行拼接,使每组拼接矩阵与初始网络结构的注意力头形成对齐,实现教师网络与学生网络注意力图之间较为规整的对应关系,从而能够计算蒸馏损失,实现将复杂教师网络的知识准确传递给轻量级学生网络。因此,可以解决多头注意力机制中教师网络与学生网络头数的差异,阻碍学生网络对教师网络知识的充分学习的问题,达到提高知识蒸馏效果,增强学生网络性能的技术效果。
技术关键词
网络结构
矩阵
知识蒸馏方法
教师
学生
预训练模型
传播算法
可读存储介质
多头注意力机制
电子设备
存储计算机程序
人工智能技术
策略
元素
超参数
系统为您推荐了相关专利信息
光路切换单元
光电转换单元
深度卷积神经网络算法
准直透镜
单模光纤
智能仓储管理方法
LSTM模型
库存周转率
三维网格单元
分区
移动机器人
自主定位导航方法
实时图像
特征点
序列
鱼眼相机
信号处理方法
协方差矩阵
图像分割
航向角信息
传感器监测网络
动态预测方法
高压旋喷施工
深度学习预测模型
演化特征