基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质

正文

推荐专利

申请号：CN202410717483

申请日期：2024-06-04

公开号：CN118736482A

公开日期：2024-10-01

类型：发明专利

摘要

基于视觉大模型语义引导的RGB‑T人群计数方法、设备及介质，首先分别将SAM应用于RGB和热模态，使用语义作为提示来获得每个模态的语义；然后模块融合最高层的语义、模态和计数信息，并使用多头自注意机制增强特征；再将融合的特征和较低层的图像特征输入到多级解码器中，生成计数令牌和密度图；最后密度图通过回归头进行处理，得到最终的计数结果。本发明针对RGB‑T人群计数中存在误检测和漏检测的问题，利用SAM大型模型的分割优势，有效地整合了语义和模态信息，提高了计数过程的准确性和鲁棒性。

技术关键词

计数网络模型计数方法融合特征视觉多级解码器线性变换矩阵令牌图像编码器融合语义密度可读存储介质多层感知机标记注意力机制语义特征电子设备

基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质

站点导航

APP 下载