摘要
本申请涉及一种用于端侧模型训练加速的大模型剪枝方法、装置和设备,所述方法指出端侧模型训练的主要瓶颈在于对输入序列的all‑to‑all注意力运算。all‑to‑all运算构造了一个完全图,即每个序列的token都和其余所有token建立了有向边,这种完全图是稠密结构,但是不同的token间有差异化的相似性,本方法根据token序列的差异化相似性构造系列化的稀疏图,实现了系列化、通用化的Transformer稀疏剪枝,为Transformer模型训练师提供了一套灵活的稀疏剪枝工具,通过剪除模型中不重要的参数,减少模型的计算量和存储需求,从而在有限的资源下实现高效的模型训练和推理,实现端侧模型训练的加速。
技术关键词
模型剪枝方法
掩码矩阵
邻居
序列
子模块
社区结构
注意力
文本
顶点
剪枝工具
指标
火灾
摘要
计算机设备
输入模块
参数
列表
关系
系统为您推荐了相关专利信息
线下门店返利系统
营销活动信息
营业执照信息
数据分析模块
子模块
单克隆抗体
ELISA检测系统
夹心ELISA检测方法
蛋白
序列
异构网络链路预测
链路预测模型
节点
注意力
异构网络数据
扫地机器人
路径优化方法
遗传算法优化
序列
非易失性存储介质