摘要
本发明提供了一种多模态人群计数方法及系统,该方法通过获取图像,并提取图像的图像特征,图像包括可见光模态图像和热红外模态图像;将可见光模态图像和热红外模态图像的图像特征逐层级的通过空间频率引导模块中的空间频率注意力生成目标注意图;将各层级的可见光模态图像和热红外模态图像的图像特征以及目标注意图通过自适应动态融合模块进行融合,得到各多模态融合特征;将各多模态融合特征通过多尺度渐进融合模块,生成预测密度图,其中,多尺度渐进融合模块由空洞空间金字塔池化和Swin Transformer Block构成,通过上述各步骤中设计的模块,可以有效解决多模态人群计数误差大,计数精度低的问题。
技术关键词
计数方法
注意力
融合特征
图像
可见光
多尺度
层级
模块
二维离散余弦变换
线性单元
空间金字塔池化
动态
空洞
多模态特征
计数系统
元素
密度