摘要
本发明公开了一种基于Mamba特征融合的目标检测方法,涉及图像目标检测技术领域。本发明利用VSSA模块的创新实现,将状态空间模型的选择性扫描机制应用于2D视觉数据处理,通过四个方向的状态空间建模,有效捕获图像中的远距离依赖关系,这种多向处理策略解决了传统状态空间模型在处理二维视觉数据时的局限性,使模型能够全面感知图像中不同方向的空间依赖关系,VSSA采用可学习的状态空间参数对特征序列进行动态建模,增强了网络对复杂空间结构的理解能力,特别适合处理需要长距离上下文信息的场景,此外,本发明还结合了MTMHSA,进一步增强了目标检测中不同层次特征的融合能力。通过该创新,模型能够更好地理解图像中的目标,提升目标的定位与分类精度。
技术关键词
解码器
预测类别
图像
语义特征
编码器
状态空间模型
模块
交叉注意力机制
多尺度
多头注意力机制
前馈神经网络
查询特征
视觉
坐标
噪声数据