摘要
本申请涉及人工智能技术领域,公开了一种基于大语言模型的识别训练方法、识别方法,在对大语言模型进行训练时,通过知识蒸馏时冻结部分权重的大模型量化方法,观察多头注意力模块中各关键层的梯度变化从而冻结不稳定的关键层,蒸馏训练量化模型,提高了大语言模型量化微调的稳定性,能够获得更高精度和性能的量化模型,进一步减少了大语言模型部署和推理的存储空间和计算资源需求,进而提高了大语言模型的识别精度和效率,解决了现有大语言模型在识别的过程中,存在的识别精度差、效率低的问题。
技术关键词
识别训练方法
大语言模型
蒸馏
训练样本集
输出特征
文本
识别方法
学生
模块
教师
注意力
人工智能技术
精度
数据
标签
元素
计算方法
变量
曲线