摘要
本发明公开了一种基于VSSM和掩码重建的多尺度人群计数方法、系统及介质,属于计算机视觉与深度学习领域,本发明对输入人群图像进行多尺度变换和分割操作,以得到每个尺度下的图像块;对每个图像块进行分析,得到信息熵图,并根据信息熵图对每个图像块进行掩码操作,将掩码图像块输入VSSM中进行特征提取,以得到编码特征,通过Transformer解码器对编码特征进行解码重建,最终得到重构特征图像;采用多尺度融合模块融合不同尺度的重构特征图像,生成融合特征;基于融合特征生成人群密度图,并通过对人群密度图进行分析得到人群计数结果。避免了单一尺度分析导致的计数误差,显著提升了全尺度范围内的人群计数精度。
技术关键词
计数方法
信息熵
编码特征
融合特征
重构
图像块特征
状态空间模型
前馈神经网络
密度
多尺度特征融合
注意力机制
序列
扫描模块
输出特征
解码器
特征提取单元