摘要
本发明提供了一种基于知识蒸馏的模型压缩方法及系统,通过继承已经训练成熟的教师模型的软标签,并使用软标签定义学生模型的蒸馏损失函数,使得学生模型得以压缩,在此基础上,通过随机抽取样本混合生成新的样本扩展训练集,缓解数据不足问题,同时提升模型对噪声和分布偏移的鲁棒性,通过动态权重调整,使学生模型迅速拟合教师模型知识,在训练后期自主优化,避免过拟合软标签。通过在未标注数据占比30%的测试集上,在使用真实标签的准确率为78.3%基础上,使用伪目标使准确率提升11.2%,通过使用训练成熟的学生模型进行部署,省略中间层特征对齐,GPU显存占用从3.2GB降至1.8GB,满足边缘设备部署需求。
技术关键词
模型压缩方法
蒸馏
学生
样本
教师
标签
训练集
定义
数据
鲁棒性
中间层
动态
索引
策略
噪声
线性
基础
参数
系统为您推荐了相关专利信息
预后预测模型
基因表达数据
结直肠癌患者
高风险
富集
热泵控制系统
辨识方法
系统辨识模型
系统参数辨识
多项式
音频识别方法
说话人数目
声纹特征
声学特征
训练识别模型