摘要
本发明公开了基于模态协同视觉语言大模型分层剪枝的图像分割方法,包括以下步骤:获取遥感图像;将每个块中的编码视觉信息转换为具有语言信息的视觉表示;基于每个块的输出,将不同模态中功能相似的层进行分组;引入KL散度作为辅助目标支持参数重要性估计;计算模态协同重要性分数;计算每个权重的稀疏度;找到能最大限度保持模型性能的最优稀疏权重;根据层稀疏度执行视觉语言大模型的逐层剪枝;剪枝后的视觉语言大模型进行图像分割,并输出图像分割结果。本申请构建来自不同模态的VLM层之间的跨模态依赖关系,基于全局跨模态信息的逐层剪枝;利用原始模型的软目标,能够从原始模型中获益并保留其行为特性。
技术关键词
图像分割方法
视觉
分层
语言编码器
多视角
校准
参数
模型压缩
数据
注意力
模型块
跨模态
样本
矩阵
标签
标记
代表
系统为您推荐了相关专利信息
漂浮平台
尺寸优化设计方法
拉丁超立方采样
响应面法
全局优化算法
注意力机制
矫正辅助系统
动作特征提取方法
文本
语音识别模块