摘要
本发明涉及计算机视觉技术领域,尤其涉及聚合语义标记角度的高效视觉Transformer方法。本发明包括以下步骤:S1:对输入图像进行预处理,将其划分为多个图像补丁;S2:采用标记感知位置编码模块对图像补丁进行编码。本发明结合了标记感知位置编码以及一个自适应聚类的语义标记注意力模块,这个灵活的、对查询敏感的稀疏注意力框架,允许每个查询仅对最相关的少数键值对进行关注;同时通过标记感知位置编码模块将标记附近领域的其他标记进行聚合,来减少标记分组后的信息损失;空间门控前馈网络简化了模型参数的同时提升了空间信息表达,最终实现了性能和计算效率的平衡,优化了模型对重要视觉信息的捕获与表示能力的同时减少了计算量和参数量。
技术关键词
语义
标记
局部敏感哈希技术
编码模块
注意力机制
大规模图像数据
补丁
表达式
线性变换矩阵
计算机视觉技术
网络
聚类方法
分支
参数
图像处理
键值
系统为您推荐了相关专利信息
影像识别方法
影像识别系统
便携式手持终端
图像识别模块
眼底图像特征
图像
特征提取网络
解码器结构
特征提取模块
编码器
编码特征
图像复原方法
像素
计算机存储介质
语义
卷积模块
空间金字塔池化
检测网络模型
上下文特征
通道注意力机制