摘要
本发明提出一种基于多损失函数组合与TOP‑K的知识蒸馏方法和装置,包括将训练文本分别输入教师模型和学生模型执行文本翻译任务,得到教师概率分布和学生概率分布;保存该教师概率分布中K个最高的概率值及其对应的类别,并将其余类别对应的概率置零,得到TOP‑K概率分布;基于该学生概率分布和该TOP‑K概率分布的差异,构建多个损失函数,训练该学生模型;将该训练文本输入训练后的学生模型,得到该学生模型的性能指标,根据该性能指标判断是否继续训练该学生模型,若是,则再次执行该初始步骤,否则保存当前学生模型作为翻译模型,将待翻译的文本数据输入该分类模型,得到翻译结果。
技术关键词
知识蒸馏方法
学生
指标
信息显示设备
文本
翻译模型
教师
蒸馏装置
训练装置
人工智能模型
计算机程序产品
非线性
筛选装置
电子设备
可读存储介质
因子
处理器
数据
参数
系统为您推荐了相关专利信息
评估预测模型
水利工程混凝土
检测分析系统
分子模型
特征提取单元
检测识别方法
集成学习模型
学习器
台区用电量
样本
动态预测方法
钻屑瓦斯解吸指标
动态数据集
瓦斯放散初速度
多参数
LightGBM模型
故障诊断方法
故障特征量
mRMR算法
老化故障
智能护理方法
LSTM模型
生命体征数据
生理指标监测
成分分析