聚合语义标记角度的高效视觉Transformer方法

正文

推荐专利

申请号：CN202410811310

申请日期：2024-06-21

公开号：CN118710964A

公开日期：2024-09-27

类型：发明专利

摘要

本发明涉及计算机视觉技术领域，尤其涉及聚合语义标记角度的高效视觉Transformer方法。本发明包括以下步骤：S1：对输入图像进行预处理，将其划分为多个图像补丁；S2：采用标记感知位置编码模块对图像补丁进行编码。本发明结合了标记感知位置编码以及一个自适应聚类的语义标记注意力模块，这个灵活的、对查询敏感的稀疏注意力框架，允许每个查询仅对最相关的少数键值对进行关注；同时通过标记感知位置编码模块将标记附近领域的其他标记进行聚合，来减少标记分组后的信息损失；空间门控前馈网络简化了模型参数的同时提升了空间信息表达，最终实现了性能和计算效率的平衡，优化了模型对重要视觉信息的捕获与表示能力的同时减少了计算量和参数量。

技术关键词

语义标记局部敏感哈希技术编码模块注意力机制大规模图像数据补丁表达式线性变换矩阵计算机视觉技术网络聚类方法分支参数图像处理键值

系统为您推荐了相关专利信息

基于深度学习的眼底影像识别方法、系统及设备

影像识别方法影像识别系统便携式手持终端图像识别模块眼底图像特征

基于余弦相似度匹配的零样本红外目标识别方法及系统

图像特征提取网络解码器结构特征提取模块编码器

图像复原方法、设备及计算机存储介质

编码特征图像复原方法像素计算机存储介质语义

一种基于改进YOLOv8的输电线路异物检测方法

卷积模块空间金字塔池化检测网络模型上下文特征通道注意力机制

栅格地图的生成方法、装置、介质和设备

轮廓信息障碍物栅格地图自主移动设备语义

聚合语义标记角度的高效视觉Transformer方法

站点导航

APP 下载