摘要
本发明提出了一种基于对抗学习与稀疏正则的大模型压缩方法和系统,首先通过带有掩码的多头注意力机制裁剪贡献少的注意力头,以减少参数量;其次,针对FFN结构进行稀疏约束的残差结构剪枝,优化残差结构的同时避免信息流堵塞;还引入了自适应阈值,以减少无效计算;最后,结合对抗学习范式与源模型特征的正则约束,将超参数对剪枝模型的影响分担到判别器中,使用FISTA优化方法即优化判别器,进一步提高剪枝训练的稳定性。本发明通过将对抗学习的范式应用到大模型剪枝任务当中,实现了对大模型单阶段的剪枝,剪枝后的模型不需要经过微调即可保持源模型相近的推理效果,这一设计大大减少了计算负担和计算成本。
技术关键词
剪枝模型
编码特征
模型压缩方法
门控神经网络
残差结构
参数
位置编码信息
矩阵
模型更新
随机梯度下降
模型剪枝
残差模块
表达式
文本
策略更新
多头注意力机制
输出特征
系统为您推荐了相关专利信息
气体
解码函数
多通道特征
一维卷积神经网络
解码网络
语音识别模型
编码特征
样本
解码网络
语音识别方法
数据适配系统
医院
在线增量学习
多模态数据融合
多粒度特征
处理单元
注意力神经网络
静息态功能磁共振成像
联合损失函数
特征提取器