摘要
本发明实施例提供一种大模型动态知识蒸馏方法及系统,属于大模型动态知识蒸馏领域;该方法包括获取问答对数据集,使用所述学生模型对所述训练输入问答对进行编码,生成第一软标签;执行蒸馏,再次使用所述学生模型对所述训练输入问答对进行编码,生成第二软标签;计算所述学生模型的预测不确定值和区分能力;动态调整蒸馏强度权重和蒸馏温度值;迭代执行训练所述学生模型的过程,直至所述学生模型的性能指标达到预设阈值,完成动态知识蒸馏。本发明通过动态调节蒸馏参数,提高了模型输出稳定,降低了模糊样本的噪声,并且在解读类任务中使类别边界混淆率下降,提升了复杂语义的泛化能力。
技术关键词
知识蒸馏方法
学生
问答对数据
动态
标签
预训练语言模型
蒸馏系统
强度
多轮对话
控制模块
编码
处理器
覆盖率
存储器
参数
指标
语义
实体
噪声
系统为您推荐了相关专利信息
博弈论模型
预测系统
大数据
数据分析模块
聚类算法
训练样本图像
模组
缺陷检测方法
神经网络模型训练
学生
轧辊
数字压力变送器
浸液组件
中央控制单元
浸液槽
评价准则
设备组
深度强化学习
拓扑特征
耦合特征
飞行状态监测
异常事件
动态障碍物
专家规则库
注意力参数