摘要
本公开提供一种模型蒸馏方法、会话方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及知识蒸馏技术和大模型技术。方法包括:获取预训练的教师模型和新构建的学生模型;将训练样本输入教师模型和学生模型,根据教师模型中间特征层输出和学生模型中间特征层输出之间的损失,调整学生模型的参数,得到第一中间模型;将训练样本输入教师模型和第一中间模型,根据教师模型预测层输出和第一中间模型预测层输出之间的损失,以及第一中间模型预测层输出与样本标签之间的损失,调整第一中间模型的参数,得到用于执行目标任务的学生模型。通过将模型蒸馏过程分多阶段进行,避免学生模型因为参数少导致模型无法收敛,提高了模型蒸馏的效率。
技术关键词
教师
学生
文本识别模型
模型蒸馏方法
会话方法
参数
标签
知识蒸馏技术
关系
自然语言
图像处理
电子设备
处理器
人工智能技术
语音
计算机程序产品
系统为您推荐了相关专利信息
掘进参数
线性回归算法
矩阵
网络结构
隧道掘进机