摘要
本申请公开了一种针对多模态大模型的模型压缩方法、系统及设备,涉及计算机应用技术领域,该方法包括:获取事件数据集的训练集和测试集;通过测试集和原始模型获得对应的具体事件的原始预测精度;根据原始预测精度与具体事件的落地场景获得预测精度范围;对原始模型进行剪枝;得到待评估中间模型;基于具体事件确定目标中间模型;根据事件需求确定量化参数,将目标中间模型转换为量化模型,并确定量化模型的模型精度;选定压缩后的多模态大模型。本申请解决了传统大模型的压缩过程部署消耗资源大、模型参数量较高、压缩过程较为复杂的技术问题,实现了在不影响模型精度的前提下,降低模型的部署成本、加快模型的推理速度的技术效果。
技术关键词
模型压缩方法
精度
大语言模型
多模态
存储计算机程序
处理器
指令
参数
模块
通道
场景
数据
解码
存储器
线性
指标
资源
速度