基于大语言模型的识别训练方法、识别方法

AITNT
正文
推荐专利
基于大语言模型的识别训练方法、识别方法
申请号:CN202411002760
申请日期:2024-07-25
公开号:CN118520904B
公开日期:2024-10-15
类型:发明专利
摘要
本申请涉及人工智能技术领域,公开了一种基于大语言模型的识别训练方法、识别方法,在对大语言模型进行训练时,通过知识蒸馏时冻结部分权重的大模型量化方法,观察多头注意力模块中各关键层的梯度变化从而冻结不稳定的关键层,蒸馏训练量化模型,提高了大语言模型量化微调的稳定性,能够获得更高精度和性能的量化模型,进一步减少了大语言模型部署和推理的存储空间和计算资源需求,进而提高了大语言模型的识别精度和效率,解决了现有大语言模型在识别的过程中,存在的识别精度差、效率低的问题。
技术关键词
识别训练方法 大语言模型 蒸馏 训练样本集 输出特征 文本 识别方法 学生 模块 教师 注意力 人工智能技术 精度 数据 标签 元素 计算方法 变量 曲线
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号