摘要
本说明书一个或多个实施例提供一种神经网络模型的压缩方法、设备、存储介质及程序产品。该方法包括:将第一数据样本输入待压缩的神经网络模型进行推理,以获取在推理过程中由多头注意力结构产生的键值缓存数据集;键值缓存数据集包括与多头注意力结构中的多个注意力头一一对应的多个键值缓存数据;按照至少两个注意力头为一组的方式,对键值缓存数据集中的多个键值缓存数据进行划分,得到与各组对应的键值缓存数据子集;对与各组对应的键值缓存数据子集进行奇异值分解,得到与各组对应的压缩权重;利用与各组对应的压缩权重对各组包括的至少两个注意力头的模型参数进行压缩处理,以将多头注意力结构压缩为分组查询注意力结构。
技术关键词
注意力
神经网络模型
键值
矩阵
参数
神经网络推理
处理器
指令
解码器
计算机程序产品
样本
可读存储介质
编码
电子设备
数据
存储器
系统为您推荐了相关专利信息
跨模态融合特征
交叉注意力机制
稀疏特征提取
视觉
雷达点云数据