摘要
本发明提供了一种针对视觉大模型的蒸馏方法,包括:获取教师模型,所述教师模型是具有Transformer结构的视觉大模型;对所述教师模型进行结构剪枝,生成多个辅助模型;利用优化损失函Loss数通过参数共享方式优化训练所述教师模型和多个所述辅助模型;在优化后的多个所述辅助模型中选取综合得分最高的为选定辅助模型;利用优化损失函数训练所述选定辅助模型和学生模型,得到最终的学生模型。利用本发明的技术方案,可将模型知识从全尺度的教师模型尽可能传递到学生模型,使得学生模型在规模和性能上达到最佳,该学生模型的规模足够小,能方便地嵌入到实际的应用设备中。
技术关键词
蒸馏方法
教师
学生
图像识别单元
图像识别方法
生成超声图像
视觉
图像生成单元
图像识别装置
图像识别模块
图像获取模块
蒸馏装置
注意力
规模
处理器
参数
标签
系统为您推荐了相关专利信息
语音交互识别方法
智能互动玩具
滤波器
教师
学生
成像数据处理方法
肝脏
融合网络架构
三维可视化模型
患者