摘要
本发明公开了基于高效多尺度和简单注意力模块的领域泛化语义分割增强方法,属于计算机视觉领域。该模型基于文本查询驱动的掩码转换器(Textual Query‑driven Mask Transformer,TQDM)框架,并融合了高效多尺度注意力模块(Efficient Multi‑Scale Attention Module,EMA)和无参数简单注意力模块(Simple Parameter‑free Attention Module,SimAM),以提升语义分割任务在多种域上的适应性和鲁棒性。本发明通过引入EMA模块,实现多尺度特征聚合与跨空间信息交互,从而增强模型对复杂场景的理解能力;同时,结合SimAM模块,在不增加额外参数的情况下优化特征表达,提高小目标分割和目标边界检测的精度。本发明可广泛应用于自动驾驶、智能监控、医学影像分析等涉及跨域语义分割的计算机视觉任务。
技术关键词
高效多尺度
注意力
语义
跨模态
模块
文本编码器
像素
图像
通道
计算机视觉
视觉特征
解码器结构
多尺度特征
生成机制
池化特征
模态特征
系统为您推荐了相关专利信息
光电探测器阵列
传感系统
数据转换模块
时序控制模块
低压差分信号
器械
特征模板
训练样本集
高分辨率摄像头
深度学习算法
微波发射系统
微波发射机
功率管理
雷达探测器
干扰抑制模块
宽厚板四辊轧机
坯料
参数
图像处理算法
机器学习算法
卷积模块
全局平均池化
空间金字塔
深度神经网络
文本特征向量