摘要
本发明公开了融合语义语法树与反射率感知的头盔佩戴多模态检测方法,S1:输入阶段:接收图像和文本对输入作为检测目标;S2:HelmetGuard‑DINO模型处理阶段:输入的图像进入由Swin Transformer构成的图像主干网络;通过分层结构输出4级特征图;在C5阶段引入动态卷积核,利用文本嵌入动态调整卷积权重;文本编码器处理:基于12层BERT模型构建的文本编码器对输入文本进行处理;特征增强层融合:运用双向跨模态注意力机制计算视觉到语言的注意力权重;提高检测精度:通过CBAM注意力模块对特征的增强作用,使模型能够更精准地聚焦于目标区域,突出关键特征,抑制背景噪声,从而有效提高了检测精度;增强召回率:CBAM模块的引入,尤其在特征金字塔网络中的应用,提升对小目标的召回率。
技术关键词
融合语义
文本编码器
反射率
多模态
头盔
视觉特征
特征金字塔网络
注意力机制
跨模态
HSV色彩空间
图像
阶段
抑制背景噪声
局部细节特征
关键词
解码器
特征提取能力
动态