摘要
本申请公开了一种知识蒸馏方法、装置、设备、介质及产品,涉及人工智能技术领域,该方法包括:将第t次循环次数对应的当前迭代次数下的文本分别输入教师模型和学生模型,得到概率分布集合;根据概率分布集合计算前向KL散度以及反向KL散度的值得到损失函数值;若标记词为非结束标记符,则将标记词拼接到文本后面,然后进入第t次循环次数对应的下次迭代;否则根据损失函数值对学生模型的参数进行更新,然后令循环次数t加1并初始化下一循环次数对应的迭代次数,进入下次循环,直到训练数据集中的文本被抽取完毕,保存最后一次循环次数对应的学生模型的参数及学生模型的架构,本申请可提高学生模型的精度和泛化能力。
技术关键词
知识蒸馏方法
学生
文本
教师
中间层
标记
蒸馏装置
参数更新模块
超参数
处理器
人工智能技术
计算机程序产品
数据
计算机设备
可读存储介质
存储器
序列
系统为您推荐了相关专利信息
便携式文档格式
标记语言文件
文本段落
交互模型
推理方法
界面
傅里叶变换红外光谱
迭代优化算法
金属材料
中间层
校园安全监控
学生
移动轨迹数据
视频特征数据
管理系统