摘要
一种基于多尺度Tsallis熵与低级视觉特征引导的ViT语义分割渐进式Token剪枝方法及系统,方法包括:使用Patch Embedding块嵌入将输入图像分割成多个固定大小的Patch块,并将每个Patch块转换为一个固定维度的特征向量;使用Transformer堆叠层捕获Patch Embedding块嵌入输出的特征向量,并进行特征提取,以产生经特征提取的Token序列;在每两个相邻Transformer层之间对Token序列执行渐进式Token修剪,包括一级熵值聚类和二级边缘引导聚类;得到语义信息复杂的Token序列,继续向后传播;利用分割头对最后一层Transformer层的Token序列进行图像分割操作,输出最终的分割图像;系统包括:Patch Embedding块嵌入、Transformer堆叠层、渐进式Token修剪模块和分割头;本发明保证性能的基础上,加速模型推理,降低部署门槛。
技术关键词
剪枝方法
视觉特征
图像分割
多尺度
前馈神经网络
序列
堆叠层
语义
聚类
注意力机制
动态可调
矩阵
代表
上采样
因子
特征值
非线性
分辨率
系统为您推荐了相关专利信息
视觉传感器
激光雷达
车载环境感知传感器
点云缺失
数据
可见光图像
重识别方法
分类器
细粒度特征
ResNet网络
关键帧
分类方法
视频特征提取
神经网络分类
空间特征提取
多源异构数据融合
局部特征信息
遥感影像数据
图像局部特征
语义