基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质

AITNT
正文
推荐专利
基于视觉大模型语义引导的RGB-T人群计数方法、设备及介质
申请号:CN202410717483
申请日期:2024-06-04
公开号:CN118736482A
公开日期:2024-10-01
类型:发明专利
摘要
基于视觉大模型语义引导的RGB‑T人群计数方法、设备及介质,首先分别将SAM应用于RGB和热模态,使用语义作为提示来获得每个模态的语义;然后模块融合最高层的语义、模态和计数信息,并使用多头自注意机制增强特征;再将融合的特征和较低层的图像特征输入到多级解码器中,生成计数令牌和密度图;最后密度图通过回归头进行处理,得到最终的计数结果。本发明针对RGB‑T人群计数中存在误检测和漏检测的问题,利用SAM大型模型的分割优势,有效地整合了语义和模态信息,提高了计数过程的准确性和鲁棒性。
技术关键词
计数网络模型 计数方法 融合特征 视觉 多级解码器 线性变换矩阵 令牌 图像编码器 融合语义 密度 可读存储介质 多层感知机 标记 注意力机制 语义特征 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号