摘要
本发明涉及一种面向大语言模型轻量化的对比式自适应知识蒸馏方法,包括如下步骤:选取通用教师模型和学生模型并进行初始化;使用同一类型数据构建的训练集X分别作为教师模型和学生模型的输入,利用两个模型各自的输出联合原始输入构建混合训练样本;构建双分支对比式损失函数用于对学生模型的训练,最终得到训练好的学生模型。本发明提出的学生模型训练方法具备训练稳定、性能优越、资源高效等优势,适用于语言、代码、视觉等多模态大型模型在资源受限环境下的轻量部署场景,具有良好的工程应用前景与推广价值。
技术关键词
知识蒸馏方法
学生
大语言模型
教师
资源受限环境
分支
模型训练方法
三元组
参数
数据
表达式
周期
自然语言
度量
规模
序列
离线
索引
视觉
系统为您推荐了相关专利信息
智能海报生成方法
图像生成模型
大语言模型
文本
布局
图表展示方法
布局方式
屏幕
布局模板
大语言模型
智能运维系统
节点
大语言模型
分布式数据库
字段
监测模型训练方法
脉搏波
睡眠监测方法
融合特征
数据解码器