基于大语言模型的识别训练方法、识别方法

正文

推荐专利

基于大语言模型的识别训练方法、识别方法

申请号：CN202411002760

申请日期：2024-07-25

公开号：CN118520904B

公开日期：2024-10-15

类型：发明专利

摘要

本申请涉及人工智能技术领域，公开了一种基于大语言模型的识别训练方法、识别方法，在对大语言模型进行训练时，通过知识蒸馏时冻结部分权重的大模型量化方法，观察多头注意力模块中各关键层的梯度变化从而冻结不稳定的关键层，蒸馏训练量化模型，提高了大语言模型量化微调的稳定性，能够获得更高精度和性能的量化模型，进一步减少了大语言模型部署和推理的存储空间和计算资源需求，进而提高了大语言模型的识别精度和效率，解决了现有大语言模型在识别的过程中，存在的识别精度差、效率低的问题。

技术关键词

识别训练方法大语言模型蒸馏训练样本集输出特征文本识别方法学生模块教师注意力人工智能技术精度数据标签元素计算方法变量曲线

基于大语言模型的识别训练方法、识别方法

站点导航

APP 下载