摘要
本发明提供了一种ViT模型改进方法、系统、设备及存储介质,属于计算机视觉技术领域。所述方法包括:首先将输入图像划分为多个不重叠的patch,并对每个patch进行嵌入处理,生成初始特征序列表示。随后利用带空间约束的K‑means聚类算法对相邻patch的特征进行聚类,将具有相似语义特征的相邻patch合并为K类,提取每个聚类中心的特征作为新的特征表示。最后,将聚类后的特征序列输入到ViT中进行自注意力计算和前馈网络处理,生成最终的图像特征表示。本发明通过聚合语义相似patch,减少输入序列长度,降低了计算复杂度,减少了冗余信息,并增强了局部语义理解能力,适用于图像分类、目标检测等视觉任务。
技术关键词
语义特征
序列
聚类
图像
注意力
网络结构
编码器
算法
计算机视觉技术
多层感知机
处理器
编码向量
输出特征
线性
存储器
复杂度
电子设备
模块
系统为您推荐了相关专利信息
训练数据获取方法
手机屏幕
存储页面
面板
触摸屏幕
流速检测方法
水面
特征提取网络
金字塔
上下文特征