大模型压缩方法、装置、任务处理方法、设备及存储介质

正文

推荐专利

申请号：CN202510975683

申请日期：2025-07-15

公开号：CN120952084A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及模型压缩技术领域，提供一种大模型压缩方法、装置、任务处理方法、设备及存储介质，该大模型压缩方法包括：对待压缩的初始大模型的线性层进行逐层量化，得到第一大模型；初始大模型是基于专家混合架构构建并经过预训练的大语言模型；对第一大模型中的各专家子模型进行路由校准，得到第二大模型；在第二大模型的推理过程中，基于待执行的目标任务的任务类型，评估各专家子模型在任务类型上的重要性；基于重要性对各专家子模型进行动态剪枝，以对第二大模型进行压缩。通过静态量化和动态剪枝相结合的压缩方式，可以在确保模型性能的基础上，减少大模型推理所需的内存和计算开销，有利于大模型在显存资源有限的轻量化设备上的高效运行。

技术关键词

模型压缩方法动态剪枝校准非暂态计算机可读存储介质轻量化设备线性混合层处理器文本模块存储器注意力矩阵电子设备内存变量资源基础参数

系统为您推荐了相关专利信息

桥梁预应力精细检测评估方法、装置及设备

检测评估方法桥梁预应力预应力钢绞线完整性检测方法变量

一种车载无线充电器温度与功率动态调节方法及系统

车载无线充电器动态调节方法电源管理模块神经网络控制方法校准温度传感器

声呐融合噪声检测的海洋生态监测浮标系统

声呐海洋生态监测浮标系统步进电机驱动机构水听器阵列

基于大模型的任务处理方法、装置、及存储介质

多轮对话意图识别非暂态计算机可读存储介质业务办理效率金融自助设备

一种TFT显示器生产中的高精度校准方法

TFT显示器高精度校准方法对比度亮度粒子

大模型压缩方法、装置、任务处理方法、设备及存储介质

站点导航

APP 下载