摘要
基于视觉大模型语义引导的RGB‑T人群计数方法、设备及介质,首先分别将SAM应用于RGB和热模态,使用语义作为提示来获得每个模态的语义;然后模块融合最高层的语义、模态和计数信息,并使用多头自注意机制增强特征;再将融合的特征和较低层的图像特征输入到多级解码器中,生成计数令牌和密度图;最后密度图通过回归头进行处理,得到最终的计数结果。本发明针对RGB‑T人群计数中存在误检测和漏检测的问题,利用SAM大型模型的分割优势,有效地整合了语义和模态信息,提高了计数过程的准确性和鲁棒性。
技术关键词
计数网络模型
计数方法
融合特征
视觉
多级解码器
线性变换矩阵
令牌
图像编码器
融合语义
密度
可读存储介质
多层感知机
标记
注意力机制
语义特征
电子设备