摘要
本发明涉及一种基于语言引导网络的密集人群计数方法,包括以下步骤:步骤S1:针对人群标签的点阵图进行转换,制作用于凸显前景与背景区域的真值密度图标签;步骤S2:迁移CLIP视觉语言模型至计数任务之中,并为其构建用于增强样本边界清晰程度的损失函数;步骤S3:通过多层次数量提示算法,在不损失计数精度的状况下节省模型训练开销,实现细粒度的计数;步骤S4:将预测密度图进行映射,获取该图片的预测人数。该方法有利于更高效、准确地区分图像的前景与背景,从而准确获取人群的具体人数。
技术关键词
计数方法
图像编码器
样本
文本编码器
密度
图像块
掩膜
网络
多层次
参数
标签
语义
像素点
视觉特征
定义
图片
解码器
系统为您推荐了相关专利信息
拷贝数
贝叶斯分类器
无创产前筛查
检索算法
种子
故障诊断模型
设备知识库
实时数据
输出提示词
机械故障诊断方法