摘要
本发明公开了一种基于视觉Transformer的特征聚焦图像语义分割方法,采用特征金字塔结构,生成四个不同尺寸大小的特征图,在特征图嵌入的过程中使用重叠块嵌入模块以保证特征图在分块的同时保证局部信息一定程度上的连续性,利用位置编码生成模块根据局部邻域信息动态地生成对应位置编码,保持计算机视觉中所需的平移不变性,然后在Transformer编码过程中采用结合了聚焦注意力机制和卷积运算的融合模块,利用自注意力机制把握整体结构和远距离的依赖关系、引入卷积注意力使得模型保持对局部信息的敏感性,使得模型能够同时整合全局和局部细节信息。最后模型各个阶段生成的不同尺寸的特征图输入到解码器中进行分割。本发明方法提高了对目标边界和复杂场景的分割表现。
技术关键词
图像语义分割方法
注意力机制
多尺度特征金字塔
阶段
模块
编码器
上采样
解码器
远距离
计算机视觉
连续性
融合特征
分块
动态地
策略
系统为您推荐了相关专利信息
主控模块
智能笔筒
触摸按键模块
显示屏连接器
通信模块
精准播种装置
农业机械
定量下料装置
送料模块
视觉识别传感器
中央控制模块
分布式控制系统
时序控制信号
辅助控制模块
运动控制模块