摘要
公开了用于从图像生成特征图的方法和系统。该视觉系统包括用于根据神经网络处理该图像以生成该特征图的视觉模型。该视觉模型包括:第一卷积块,该第一卷积块用于对图像数据集进行下采样以获得第一级卷积数据;第二卷积块,该第二卷积块用于对该第一级卷积数据进行下采样以获得第二级卷积数据,其中,该第一卷积块和该第二卷积块中的一者或两者是包括以下项的移动卷积块(MBConv):第一高斯误差线性单元(GELU)层、逐深度卷积(DWConv)层和调整大小卷积层;以及变换器块(TFB),该变换器块根据该第二级卷积数据生成所述特征图。
技术关键词
视觉系统
文本编码器
数据
变换器
线性单元
生成特征
多模态
测试平台
基准
图像编码器
内核
通道
分辨率
计划
注意力
节点