一种ViT模型改进方法、系统、设备及存储介质

正文

推荐专利

申请号：CN202411730428

申请日期：2024-11-29

公开号：CN119206444A

公开日期：2024-12-27

类型：发明专利

摘要

本发明提供了一种ViT模型改进方法、系统、设备及存储介质，属于计算机视觉技术领域。所述方法包括：首先将输入图像划分为多个不重叠的patch，并对每个patch进行嵌入处理，生成初始特征序列表示。随后利用带空间约束的K‑means聚类算法对相邻patch的特征进行聚类，将具有相似语义特征的相邻patch合并为K类，提取每个聚类中心的特征作为新的特征表示。最后，将聚类后的特征序列输入到ViT中进行自注意力计算和前馈网络处理，生成最终的图像特征表示。本发明通过聚合语义相似patch，减少输入序列长度，降低了计算复杂度，减少了冗余信息，并增强了局部语义理解能力，适用于图像分类、目标检测等视觉任务。

技术关键词

语义特征序列聚类图像注意力网络结构编码器算法计算机视觉技术多层感知机处理器编码向量输出特征线性存储器复杂度电子设备模块

系统为您推荐了相关专利信息

一种基于多模态图像的眼底黄斑裂孔边界检测方法

边界检测方法映射算法跨模态直线多模态

基于生成式大模型纹理生成三维颜料喷涂系统及方法

纹理网格模型喷涂方法喷涂系统三维点云模型

基于无障碍服务的训练数据获取方法、系统、设备及介质

训练数据获取方法手机屏幕存储页面面板触摸屏幕

一种基于深度学习光流估计的水面流速检测方法

流速检测方法水面特征提取网络金字塔上下文特征

基于机器视觉的螺丝锁付校正方法及系统、设备、介质

菲林片校正方法标记视觉系统图像采集设备

一种ViT模型改进方法、系统、设备及存储介质

站点导航

APP 下载