摘要
本发明实施例公开了一种注意力剪裁方法、装置、电子设备及存储介质,涉及跨模态大模型优化技术领域,其中,所述方法包括:采集多模态样本对作为验证集,根据当前场景的资源条件确定算法进行有害注意力头的定位;若采用遗传算法,则将所有注意力头编码为二进制向量,使用遗传算法和适应度函数在验证集上对二进制向量进行优化得到定位信息;若采用反向传播算法,则为每个注意力头设置抑制系数,使用对比损失函数在验证集上进行训练直至达到设定条件得到定位信息;根据有害注意力头的定位信息对注意力权重矩阵中的数值进行调整,得到调整后的注意力权重矩阵。本发明解决了现有技术中无法自动化、灵活的剪裁有害的注意力头,下游任务性能差的问题。
技术关键词
注意力
剪裁方法
遗传算法
计算机可读指令
跨模态
传播算法
图像编码器
多模态
模型优化技术
电子设备
矩阵
定位模块
剪裁装置
样本
场景
处理器
数值
文本
存储器
系统为您推荐了相关专利信息
优化BP神经网络
混凝土
数据获取设备
界面
BP神经网络模型
解码模型
信道
传输方法
线性变换矩阵
注意力机制
地质灾害风险评估
大数据
粒子
地质灾害风险评价
注意力机制
文物虚拟修复方法
图像数据解码
修复文物
修复装置
文本编码器