摘要
本申请公开了针对低算力设备的大模型端到端蒸馏部署方法、装置、设备及介质,涉及人工智能领域,包括:在计算集群中,确定第一目标数据集和目标学生模型,并部署蒸馏模型训练框架;利用第一预设大模型推理框架将预设大语言模型部署至计算集群,并将部署后的预设大语言模型确定为教师模型;若蒸馏模型训练框架为黑盒知识蒸馏框架,则基于教师模型和第一目标数据集确定第二目标数据集,并利用第二目标数据集对目标学生模型进行蒸馏,以得到蒸馏模型;若蒸馏模型训练框架为白盒知识蒸馏框架,则基于教师模型对目标学生模型进行蒸馏,以得到蒸馏模型;基于第二预设大模型推理框架将蒸馏模型部署至目标设备。因此,能够提高对大语言模型访问的效率。
技术关键词
大语言模型
蒸馏
框架
教师
学生
集群
注意力机制
字符生成速度
显卡
数据分类
中间层
模型库
缩放技术
权重算法
指标
标签
模块