摘要
本发明涉及模型压缩技术领域,提供一种大模型压缩方法、装置、任务处理方法、设备及存储介质,该大模型压缩方法包括:对待压缩的初始大模型的线性层进行逐层量化,得到第一大模型;初始大模型是基于专家混合架构构建并经过预训练的大语言模型;对第一大模型中的各专家子模型进行路由校准,得到第二大模型;在第二大模型的推理过程中,基于待执行的目标任务的任务类型,评估各专家子模型在任务类型上的重要性;基于重要性对各专家子模型进行动态剪枝,以对第二大模型进行压缩。通过静态量化和动态剪枝相结合的压缩方式,可以在确保模型性能的基础上,减少大模型推理所需的内存和计算开销,有利于大模型在显存资源有限的轻量化设备上的高效运行。
技术关键词
模型压缩方法
动态剪枝
校准
非暂态计算机可读存储介质
轻量化设备
线性
混合层
处理器
文本
模块
存储器
注意力
矩阵
电子设备
内存
变量
资源
基础
参数
系统为您推荐了相关专利信息
检测评估方法
桥梁预应力
预应力钢绞线
完整性检测方法
变量
车载无线充电器
动态调节方法
电源管理模块
神经网络控制方法
校准温度传感器
声呐
海洋生态监测
浮标系统
步进电机驱动机构
水听器阵列
多轮对话
意图识别
非暂态计算机可读存储介质
业务办理效率
金融自助设备