摘要
本发明公开一种大语言模型的改进方法及电子设备和存储介质,其中方法包括:通过公开的数据集计算中间层之间的相关矩阵,基于中间层之间的相关矩阵计算各层之间的互信息冗余度,并通过各层之间的互信息冗余度构建层间冗余矩阵;基于冗余矩阵计算每一层的总冗余度,并通过函数转换生成层重要性因子;基于层重要性因子建立目标函数并构建各层稀疏率分配的线性优化模型;采用线性规划算法求解优化模型,得到各层最优稀疏率分配方案;根据分配方案对每层权重矩阵进行差异化剪枝,保留各层权重矩阵中幅度最大的权重参数,并将其余参数置零,得到稀疏化后的权重矩阵。该方法能够在中间层中选择性地剪枝特征,从而实现对大型语言模型的细粒度优化。
技术关键词
冗余度
中间层
线性规划算法
大语言模型
矩阵
因子
注意力
电子设备
度量
处理器通信
计算方法
参数
网络
存储器
数据
定义
指令
系统为您推荐了相关专利信息
配电网单相接地故障
配电网馈线
馈线开关
深度强化学习
开关特征
卫星影像数据
仿真平台
三维模型
矢量地图
电池仿真模型
临床辅助决策
头颈
管理方法
患者
可穿戴设备数据
分析方法
眼底图像分割
空间邻域信息
像素点
解码器