摘要
本发明公开了双向并行局部注意力视觉Transformer方法,涉及计算机视觉技术领域。本发明首先在特征层面对补丁进行分组,在每个组内执行局部注意力操作,有效利用特征空间中补丁之间的关系,弥补信息丢失的问题,其次,为了有效融合补丁之间的信息,将基于语义的局部注意力和基于图像的局部注意力进行并行结合,通过双向自适应学习来增强ViT模型在小数据集上的性能,实验结果表明,该方法在计算量为15.2GFLOPs和参数量为57.2M的情况下,分别在CIFAR‑10数据集以及CIFAR‑100数据集上实现了97.93%和85.80%的准确性,相较其他方法,双向并行局部注意力的视觉Transformer在增强局部引导能力的同时,保持了局部注意力所需属性的有效性。
技术关键词
k均值聚类算法
补丁
标记
注意力模型
语义
模块
局部特征提取
图像分割
计算机视觉技术
图像块
多层感知机
预测类别
代表
分辨率
参数
数据