一种ViT模型改进方法、系统、设备及存储介质

AITNT
正文
推荐专利
一种ViT模型改进方法、系统、设备及存储介质
申请号:CN202411730428
申请日期:2024-11-29
公开号:CN119206444A
公开日期:2024-12-27
类型:发明专利
摘要
本发明提供了一种ViT模型改进方法、系统、设备及存储介质,属于计算机视觉技术领域。所述方法包括:首先将输入图像划分为多个不重叠的patch,并对每个patch进行嵌入处理,生成初始特征序列表示。随后利用带空间约束的K‑means聚类算法对相邻patch的特征进行聚类,将具有相似语义特征的相邻patch合并为K类,提取每个聚类中心的特征作为新的特征表示。最后,将聚类后的特征序列输入到ViT中进行自注意力计算和前馈网络处理,生成最终的图像特征表示。本发明通过聚合语义相似patch,减少输入序列长度,降低了计算复杂度,减少了冗余信息,并增强了局部语义理解能力,适用于图像分类、目标检测等视觉任务。
技术关键词
语义特征 序列 聚类 图像 注意力 网络结构 编码器 算法 计算机视觉技术 多层感知机 处理器 编码向量 输出特征 线性 存储器 复杂度 电子设备 模块
系统为您推荐了相关专利信息
1
一种基于多模态图像的眼底黄斑裂孔边界检测方法
边界检测方法 映射算法 跨模态 直线 多模态
2
基于生成式大模型纹理生成三维颜料喷涂系统及方法
纹理 网格模型 喷涂方法 喷涂系统 三维点云模型
3
基于无障碍服务的训练数据获取方法、系统、设备及介质
训练数据获取方法 手机屏幕 存储页面 面板 触摸屏幕
4
一种基于深度学习光流估计的水面流速检测方法
流速检测方法 水面 特征提取网络 金字塔 上下文特征
5
基于机器视觉的螺丝锁付校正方法及系统、设备、介质
菲林片 校正方法 标记 视觉系统 图像采集设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号