摘要
本公开提供了模型蒸馏方法,装置、设备及存储介质,涉及计算机技术领域,尤其涉及模型训练、知识蒸馏、大语言模型技术领域。具体实现方案为:将第一训练数据集中的同一批训练数据分别输入第一模型、第二模型、第三模型和学生模型;根据第一模型、第二模型以及第三模型三者输出的预测结果,确定目标训练结果;以及根据学生模型的预测结果与目标训练结果之间的损失值,对学生模型进行训练,以得到用于执行目标自然语言处理任务的学生模型。根据本公开的方案,可以有效地降低了知识蒸馏的训练成本和计算资源消耗,并显著提升蒸馏训练效率,减少了对服务器计算资源的占用。
技术关键词
学生
模型蒸馏方法
自然语言
子模块
文本
问答系统
数据
信息检索
大语言模型
计算机程序产品
蒸馏装置
处理器通信
摘要
指令
输入模块
参数
系统为您推荐了相关专利信息
三维模型轻量化
轻量化方法
子模块
渲染优化方法
结构优化方法
知识库构建方法
视频画面数据
图像画面数据
文本
电力
语音质检方法
情绪识别模型
质检模型
多模态特征融合
计算机可读指令