摘要
本发明公开了一种基于输入驱动的上下文稀疏性大语言模型高效优化系统,包括优化重构模块、模型级别贪婪优化模块、块级别贪婪预热模块和块级别微调模块;对大语言模型使用贪心算法确定每个Transformer Block的稀疏度配置;随后,对每个Block内部的全连接层进行分析,并在目标稀疏度的约束下,利用贪心方法使用较大的补偿来对每个全连接层的稀疏度配置先进行预热,以此防止在块重构时陷入局部最小值;最后,引入桥函数进行稀疏度配置微调,并结合KDE方法建立稀疏度与阈值之间的关系,从而实现阈值的微调。本发明采用多级优化策略,通过由粗到细的调整过程来获得最优的稀疏配置。在保持模型性能的同时实现了更有效的压缩。
技术关键词
大语言模型
重构模块
核密度估计方法
贪心算法
矩阵
指针
关系
参数
层级
内存
索引
策略
阶段
程序